5.4 压缩格式
操作场景:
通常来说压缩会对性能有提升,虽然消耗了一点CPU,但是节省了磁盘IO,节省了网络带宽。
对于ORC File文件,在定义表的时候,就指定了压缩类型。
对于中间结果,一般是Sequence File类型,因此可以指定中间文件的压缩类型和压缩算法;
修改参数:
参数名 | 描述 |
---|---|
hive.exec.compress.output | 默认是false;对于文本文件格式,可以指定修改为true;orc文件类型不受此参数控制; |
mapred.output.compression.codec | 默认是org.apache.hadoop.io.compress.DeflateCodec,建议改成org.apache.hadoop.io.compress.SnappyCodec |
hive.exec.compress.intermediate | 中间结果是否进行压缩,默认是false |
hive.intermediate.compression.codec | 默认为空,建议改成org.apache.hadoop.io.compress.SnappyCodec |