Parquet 数据页压缩（Data Page Compression）

概述

Parquet 允许对字典页和数据页中的数据块进行压缩，以提高存储效率。Parquet 格式支持多种压缩算法，这些算法在压缩比和处理成本之间的不同范围内提供了不同的选择。

每种压缩算法的详细规范由各自的作者或维护者独立维护，我们在此提供参考链接。

除已弃用的 LZ4 编解码器外，所有压缩编解码器都会直接对数据页或字典页的原始数据进行压缩，而不会添加额外的框架或填充。解压缩所需的精确缓冲区分配信息存储在 PageHeader 结构体中。

不进行任何压缩，数据保持原样。

基于 Snappy 压缩格式的编解码器。如果在实现此格式时存在任何歧义，应参考 Google 提供的 Snappy 库作为权威实现。

基于 GZIP 格式的编解码器（与“zlib”或“deflate”格式不同），其格式定义在 RFC 1952 中。如果在实现此格式时存在任何歧义，应参考 zlib 压缩库作为权威实现。

读取器应支持读取包含多个 GZIP 成员的页面，但由于历史上并非所有实现都支持这一特性，因此建议写入器默认避免创建此类页面，以提高兼容性。

基于或兼容 LZO 压缩库的编解码器。

基于 RFC 7932 定义的 Brotli 格式的编解码器。如果在实现此格式时存在任何歧义，应参考 Brotli 压缩库作为权威实现。

已弃用 的编解码器，基于 LZ4 压缩算法，但包含额外的未记录的框架方案。该框架最初是 Hadoop 压缩库的一部分，并被 parquet-mr 复制，然后由 parquet-cpp 以不同程度的成功进行模拟。

强烈建议 Parquet 写入器的实现者在用户 API 中弃用此压缩编解码器，并建议用户改用新的 LZ4_RAW 编解码器，以提高互操作性。

基于 RFC 8478 定义的 Zstandard 格式的编解码器。如果在实现此格式时存在任何歧义，应参考 Zstandard 压缩库作为权威实现。

基于 LZ4 块格式的编解码器。如果在实现此格式时存在任何歧义，应参考 LZ4 压缩库作为权威实现。

通过合理选择压缩算法，可以在存储效率、读取性能和处理成本之间取得最佳平衡，从而优化 Parquet 文件的存储和使用体验。