5.5 并行度控制
操作场景:
SQL会转换成Map和Reduce,Map的数量由总数据量除以Map处理的数据量来定,Reduce的数量是总数据量除以Reduce处理的数量,不超过最大值。
对于SQL中有count(distinct),order by的这种一般只会生成一个reduce,不受这些参数的控制,对性能影响比较大,稍后专题讲解。
修改参数:
参数名 | 描述 |
---|---|
mapreduce.input.fileinputformat.split.maxsize | 默认256000000,map处理的最大数据量,一般不用改 |
hive.exec.reducers.bytes.per.reducer | 默认256000000,reduce处理的最大数据量,一般不用改 |
hive.exec.reducers.max | 默认999,对于集群比较大的情况,可以适当改大。 |