操作场景
SELECT COUNT( DISTINCT id ) FROM TABLE_NAME ;
优化前的问题:只有一个reduce处理全量数据,并发度不够,存在单点瓶颈。
SELECT COUNT(*) FROM (SELECT DISTINCT id FROM TABLE_NAME ) t;
换种写法,reduce就会有多个,性能提升很多。