性能调优笔记 - Hive
Introduction
1. 概述
1.1 模块架构模型
1.2 性能衡量指标
1.2.1 衡量指标
1.2.2 指标观测方法
2. 集群服务部署规划
2.1 规格能力
2.2 环境要求
2.3 HIVE部署
3. 典型业务的调优
3.1 批处理业务
3.2 即席查询业务
4. 二次开发业务应用指导
4.1 Hive的二次开发流程
4.2 Hive的HQL调优
4.2.1 HQL执行计划
4.2.2 除去多余的操作
4.2.3 Distinct聚合优化
4.2.4 Order By
4.2.5 Multi Insert
4.2.6 动态分区+distribute by
5. 性能调优常用方法
5.1 表模型优化
5.1.1 数据类型选择
5.1.2 表分区
5.2 文件格式
5.3 小文件
5.4 压缩格式
5.5 并行度控制
5.6 Task内存
6. 性能瓶颈监控及调优
6.1 监控手段
6.1.1 资源利用监控
7. POC调优指导
7.1 更换执行引擎为Spark
7.2 启用CBO
7.3 启用向量化
Powered by
GitBook
7.3 启用向量化
7.3 启用向量化
操作场景:
现代CPU一般都支持SIMD(Single instruction, multiple data)等指令。通过向量化,可以使Hive利用现代CPU的这些高级特性,获得性能的提升
修改参数:
参数名
描述
hive.vectorized.execution.enabled
默认是false,启用需要修改成true;
results matching "
"
No results matching "
"