性能调优笔记 - Hive
Introduction
1. 概述
1.1 模块架构模型
1.2 性能衡量指标
1.2.1 衡量指标
1.2.2 指标观测方法
2. 集群服务部署规划
2.1 规格能力
2.2 环境要求
2.3 HIVE部署
3. 典型业务的调优
3.1 批处理业务
3.2 即席查询业务
4. 二次开发业务应用指导
4.1 Hive的二次开发流程
4.2 Hive的HQL调优
4.2.1 HQL执行计划
4.2.2 除去多余的操作
4.2.3 Distinct聚合优化
4.2.4 Order By
4.2.5 Multi Insert
4.2.6 动态分区+distribute by
5. 性能调优常用方法
5.1 表模型优化
5.1.1 数据类型选择
5.1.2 表分区
5.2 文件格式
5.3 小文件
5.4 压缩格式
5.5 并行度控制
5.6 Task内存
6. 性能瓶颈监控及调优
6.1 监控手段
6.1.1 资源利用监控
7. POC调优指导
7.1 更换执行引擎为Spark
7.2 启用CBO
7.3 启用向量化
Powered by
GitBook
1. 概述
1. 概述
results matching "
"
No results matching "
"