3.1 批处理业务

处理主要特点是耗时时间长,消耗的资源比较多,主要的调优和设计推荐如下:

  1. 尽量使用ORC File, 配上合适的压缩算法, 主要可选的压缩算法为Zlib和Snappy。其中Zlib压缩比高,但压缩解压时间比Snappy长,消耗资源比如Snappy多。Snappy平衡了的压缩比和压缩解压的性能。推荐使用Snappy。

  2. 尽量使用Map Join减少Shuffle的次数,大幅提升性能

  3. 不同SQL语句,完成同一个功能,生成Map Reduce的数量越少越好

  4. Hive系统默认是典型的配置场景,结合业务实际情况,可以做一些参数的调整,如文件块的大小,Map个数与Reduce的个数,压缩算法等。

  5. 合理的使用分区,分区数量不要太多,查询的SQL尽量指定具体的分区值;

具体请参考第5章节。

results matching ""

    No results matching ""