Parquet 文件格式配置
行组大小
较大的行组可以创建更大的列块,从而实现更大的顺序 IO。但较大的行组在写入过程中需要更多的缓冲(或者需要进行两次写入)。我们建议使用较大的行组(512MB - 1GB)。由于可能需要读取整个行组,因此行组大小应完全适配一个 HDFS 块。因此,HDFS 块大小也应相应增大。优化的读取配置如下:1GB 行组、1GB HDFS 块大小、每个 HDFS 文件对应 1 个 HDFS 块。
数据页大小
数据页应被视为不可分割的,因此较小的数据页允许更精细的读取(例如单行查找)。较大的数据页可以减少空间开销(减少页头)并可能降低解析开销(处理页头)。注意:对于顺序扫描,通常不会逐页读取,因此数据页并不是 IO 读取的最小单位。我们建议将数据页大小设置为 8KB。