4.2.3 Distinct聚合优化

操作场景

SELECT COUNT( DISTINCT id ) FROM TABLE_NAME ;

优化前的问题:只有一个reduce处理全量数据,并发度不够,存在单点瓶颈。

SELECT COUNT(*) FROM (SELECT DISTINCT id FROM TABLE_NAME ) t;

换种写法,reduce就会有多个,性能提升很多。

results matching ""

    No results matching ""