跳转至

Parquet 逻辑类型（Logical Types）

逻辑类型（Logical Types）用于扩展 Parquet 可以存储的数据类型，通过指定如何解释基本数据类型来实现。这种方式使基本数据类型的集合保持最小，并复用 Parquet 高效的编码方式。例如，字符串被存储为字节数组（二进制），并带有 UTF8 标注。这些标注定义了如何进一步解码和解释数据。

这些标注被存储为文件元数据中的 LogicalType 字段，并在逻辑类型文档中有详细记录。

最佳实践

1. 使用逻辑类型优化数据存储

避免使用通用类型：如果数据是日期、时间或 Decimal 数值，应使用相应的逻辑类型，而不是简单的 BYTE_ARRAY 或 INT64，这样可以提高兼容性和查询效率。
减少存储空间：合理选择逻辑类型可以减少存储占用。例如，使用 INT32 结合 DATE 逻辑类型，而不是 STRING 存储日期信息。

2. 确保跨系统兼容性

逻辑类型的定义使得不同的系统能够正确解析数据，确保不同的查询引擎（如 Spark、Presto、Trino）都可以正确处理数据。
检查数据生产端和消费端是否都支持特定的逻辑类型，避免格式不兼容问题。

3. 注意逻辑类型的演进

在数据模式演进过程中，避免在同一列上混用不同的逻辑类型。例如，不要在一列数据上从 STRING 变更为 DECIMAL，这可能导致解析错误。
若需改变逻辑类型，建议新建列并进行数据迁移，而非直接修改已有数据类型。

4. 使用工具验证数据类型

使用 parquet-tools 或 Apache Arrow 提供的工具来检查 Parquet 文件的元数据，确保逻辑类型正确应用： sh parquet-tools meta example.parquet
在 Spark 中，可以使用 spark.read.parquet("example.parquet").printSchema() 确认数据类型是否符合预期。

通过合理使用逻辑类型，可以提升 Parquet 文件的存储效率、查询性能和系统兼容性，确保数据在不同工具和平台之间流畅交互。