5.5 并行度控制

操作场景:

SQL会转换成Map和Reduce,Map的数量由总数据量除以Map处理的数据量来定,Reduce的数量是总数据量除以Reduce处理的数量,不超过最大值。

对于SQL中有count(distinct),order by的这种一般只会生成一个reduce,不受这些参数的控制,对性能影响比较大,稍后专题讲解。

修改参数:

参数名 描述
mapreduce.input.fileinputformat.split.maxsize 默认256000000,map处理的最大数据量,一般不用改
hive.exec.reducers.bytes.per.reducer 默认256000000,reduce处理的最大数据量,一般不用改
hive.exec.reducers.max 默认999,对于集群比较大的情况,可以适当改大。

results matching ""

    No results matching ""