数据分析简介

借助 Dataplex Universal Catalog 数据分析功能,您可以识别 BigQuery 表中列的常见统计特征。这些信息有助于您更有效地了解和分析数据。

典型数据值、数据分布和 null 计数等信息有助于加快分析速度。与数据分类相结合时,数据分析可以检测数据类或敏感信息,从而启用访问权限控制政策。

Dataplex Universal Catalog 还会根据这些信息建议数据质量检查规则

概念模型

借助 Dataplex Universal Catalog,您可以创建数据分析扫描,从而更好地了解数据的概况。

下图展示了 Dataplex Universal Catalog 如何扫描数据以报告统计特征。

数据分析扫描会分析表数据,以报告统计特征。

数据分析扫描与一个 BigQuery 表相关联,并扫描该表以生成数据分析结果。数据分析扫描支持多种配置选项

配置选项

本部分介绍了可用于运行数据分析扫描的配置选项。

时间安排选项

您可以通过 API 或 Google Cloud 控制台,按定义的频率或按需安排数据分析扫描。

范围

在指定数据分析扫描时,您可以将作业的范围指定为以下选项之一:

  • 完整表:在数据分析扫描中,系统会扫描整个表。 在计算分析统计信息之前,系统会对整个表应用抽样、行过滤条件和列过滤条件。

  • 增量:在数据分析扫描中扫描您指定的增量数据。指定表格中要用作增量的 DateTimestamp 列。通常,这是用于对表进行分区的列。在计算分析统计信息之前,系统会对增量数据应用抽样、行过滤条件和列过滤条件。

过滤数据

您可以使用行过滤条件和列过滤条件来过滤要扫描以进行分析的数据。使用过滤条件有助于缩短执行时间和降低费用,并排除敏感数据和无用数据。

  • 行过滤条件:借助行过滤条件,您可以重点关注特定时间段内或特定细分(例如区域)的数据。例如,您可以过滤掉时间戳早于特定日期的数据。

  • 列过滤条件:借助列过滤条件,您可以指定在运行数据分析扫描时包含和排除表中的特定列。

样本数据

借助 Dataplex Universal Catalog,您可以指定要抽样的数据记录百分比,以便运行数据分析扫描。对较小的数据样本创建数据分析扫描,可以缩短查询整个数据集的执行时间并降低费用。

多次数据分析扫描

借助 Dataplex Universal Catalog,您可以使用 Google Cloud 控制台一次创建多个数据分析扫描。您可以从一个数据集中选择最多 100 个表,并为每个数据集创建数据分析扫描。了解详情

将扫描结果导出到 BigQuery 表

您可以将数据分析扫描结果导出到 BigQuery 表中,以便进一步分析。如需自定义报告,您可以将 BigQuery 表数据连接到 Looker 信息中心。您可以通过在多次扫描中使用同一结果表来生成汇总报告。

数据分析结果

数据分析结果包括以下值:

列类型 数据分析结果
数值列
  • null 值的百分比。
  • 近似唯一(不同)值的百分比。
  • 列中最常见的 10 个值。如果列中的唯一值数量小于 10(不包括 null 值),则该值可以小于 10。对于每个最常见的值,系统会显示其在当前扫描中扫描的数据中出现的百分比。
  • 平均值、标准差、最小值、近似下四分位数、近似中位数、近似上四分位数和最大值。
字符串列
  • null 值的百分比。
  • 近似唯一(不同)值的百分比。
  • 相应列中最常见的 10 个值(如果相应列中的唯一值数量少于 10 个,则可能少于 10 个)。
  • 字符串的平均长度、最短长度和最长长度。
其他非嵌套列(日期、时间、时间戳、二进制等)
  • null 值的百分比。
  • 近似唯一(不同)值的百分比。
  • 列中最常见的 10 个值(如果列中唯一值的数量少于 10 个,则可以少于 10 个)。
所有其他嵌套或复杂数据类型列(例如 Record、Array、JSON)或任何具有 repeated 模式的列。
  • null 值的百分比。

结果包括每次执行中扫描的记录数。

报告和监视

您可以使用以下报告和方法来监控和分析数据分析结果:

  • 在 BigQuery 和 Dataplex Universal Catalog 页面中与源表一起发布的报告

    如果您已将数据分析扫描配置为将结果发布到Google Cloud 控制台中的 BigQuery 和 Dataplex Universal Catalog 页面,则可以在这些页面中的数据分析文件标签页中查看任何项目的最新数据分析扫描结果。

    已发布的报告。

  • Dataplex Universal Catalog 中的历史作业报告

    在 Dataplex Universal Catalog 概况页面上,您可以查看最新作业和历史作业的详细报告。这包括列级分析信息和所用的配置。

    每个作业的历史报告。

  • “分析”标签页

    在 Dataplex Universal Catalog 概况页面上,您可以使用分析标签页查看列的指定统计信息在多个概况作业中的趋势。例如,如果您有增量扫描,则可以查看某个值的平均值随时间变化的趋势。

    “分析”标签页。

  • 构建自己的信息中心或分析

    如果您已将数据剖析扫描配置为将结果导出或保存到 BigQuery 表,则可以使用 Looker Studio 等工具构建自己的信息中心。

限制

  • 数据剖析功能支持所有列类型的 BigQuery 表,但 BIGNUMERIC 除外。为具有 BIGNUMERIC 列的表创建的扫描会导致验证错误,并且无法成功创建。

价格

  • Dataplex Universal Catalog 使用高级处理 SKU 来收取数据分析费用。要了解详情,请参阅价格

  • 数据分析的 Dataplex Universal Catalog 高级处理按秒计费,最低计费时间为 1 分钟。

  • 您无需为失败的分析扫描付费。

  • 费用取决于行数、列数、扫描的数据量、表的分区和聚类设置以及扫描频率。

  • 您可以通过多种方式来降低数据分析扫描的费用:

    • 采样
    • 增量扫描
    • 列过滤
    • 行过滤
  • 如需在 Dataplex Universal Catalog 高级处理 SKU 中将数据分析费用与其他费用区分开,请在 Cloud Billing 报告中使用标签 goog-dataplex-workload-type 并将其值设为 DATA_PROFILE

  • 如需过滤汇总费用,请使用以下标签:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

后续步骤