3.1 批处理业务
处理主要特点是耗时时间长,消耗的资源比较多,主要的调优和设计推荐如下:
尽量使用ORC File, 配上合适的压缩算法, 主要可选的压缩算法为Zlib和Snappy。其中Zlib压缩比高,但压缩解压时间比Snappy长,消耗资源比如Snappy多。Snappy平衡了的压缩比和压缩解压的性能。推荐使用Snappy。
尽量使用Map Join减少Shuffle的次数,大幅提升性能
不同SQL语句,完成同一个功能,生成Map Reduce的数量越少越好
Hive系统默认是典型的配置场景,结合业务实际情况,可以做一些参数的调整,如文件块的大小,Map个数与Reduce的个数,压缩算法等。
合理的使用分区,分区数量不要太多,查询的SQL尽量指定具体的分区值;
具体请参考第5章节。