5.5 并行度控制

操作场景：

SQL会转换成Map和Reduce，Map的数量由总数据量除以Map处理的数据量来定，Reduce的数量是总数据量除以Reduce处理的数量，不超过最大值。

对于SQL中有count（distinct），order by的这种一般只会生成一个reduce，不受这些参数的控制，对性能影响比较大，稍后专题讲解。

修改参数：

参数名	描述
mapreduce.input.fileinputformat.split.maxsize	默认256000000，map处理的最大数据量，一般不用改
hive.exec.reducers.bytes.per.reducer	默认256000000，reduce处理的最大数据量，一般不用改
hive.exec.reducers.max	默认999，对于集群比较大的情况，可以适当改大。

results matching ""