5.4 压缩格式

操作场景:

通常来说压缩会对性能有提升,虽然消耗了一点CPU,但是节省了磁盘IO,节省了网络带宽。

对于ORC File文件,在定义表的时候,就指定了压缩类型。

对于中间结果,一般是Sequence File类型,因此可以指定中间文件的压缩类型和压缩算法;

修改参数:

参数名 描述
hive.exec.compress.output 默认是false;对于文本文件格式,可以指定修改为true;orc文件类型不受此参数控制;
mapred.output.compression.codec 默认是org.apache.hadoop.io.compress.DeflateCodec,建议改成org.apache.hadoop.io.compress.SnappyCodec
hive.exec.compress.intermediate 中间结果是否进行压缩,默认是false
hive.intermediate.compression.codec 默认为空,建议改成org.apache.hadoop.io.compress.SnappyCodec

results matching ""

    No results matching ""