【Hive基础】-- 常见面试题目
迪丽瓦拉
2025-05-31 10:32:36
0

一、请描述一下数据倾斜,并提供解决方案? 

  1. 定义:由于数据分布不均匀,导致大量数据集中到一点,造成数据热点。现象是100个 task, 有一个运行了 1个小时,其他99个只有 10分钟。本质是数据量太大。

  1. 原因:key 分布不均匀、sql倾斜join、建表时类型有问题

  1. 算子:count、disticnt、group by 、join

  1. 解决:打散key、拆分聚合、列裁剪(最好从开发角度和业务角度回答)

    相关内容