EP001 数据清洗的核心概念——为何要拆解合并单元格?

🛑 痛点场景:常见的“中国式”复杂报表

在我们的实际工作中,经常会遇到一种让人头疼的表格格式,它们的特征非常明显:

  • 大面积的合并单元格:无论是行方向(Row)还是列方向(Column)。
  • 层层嵌套的表头:例如顶层是“一月”,下面又细分出许多维度(如“计划”、“实际”、“差额”等)。
  • 不规则结构:表格看起来像是一个复杂的网格,而不是简单的清单。

🤖 人眼 vs. 机器:视角的冲突

为什么我们会制作这样的表格?又为什么它们在数据分析中行不通?

1. 人类的视角(Human readable)

  • 优点:这种嵌套法非常便于人类的视觉观看。通过合并单元格,层级关系一目了然,阅读体验好。
  • 缺点:数据的逻辑结构被打破,难以进行二次加工。

2. 机器的视角(Machine readable)

  • 评价:这种格式对机器来说非常不友好
  • 后果
    • Excel 数据透视表失效:无法识别合并单元格的数据归属,无法进行拖拽汇总。
    • Power BI / 数据库无法导入:这些专业的数据分析软件要求数据必须是标准的结构化数据,非二维表无法直接被解析或透视。

🧹 解决方案:数据清洗 (Data Cleaning)

为了解决上述矛盾,我们需要进行一项关键操作——数据清洗

核心目标:构建“二维表”

我们需要将那些不规则的、嵌套的表格,整理成标准的二维表(一维数据源)

💡 什么是二维表?简单来说,就是只有一行标题,每一列代表一个属性,每一行代表一条完整记录的表格。没有合并单元格,没有多层表头。

价值与意义

只有完成了这一步整理(清洗),我们才能:

  1. 顺畅地使用 Excel 数据透视表 进行灵活查询。
  2. 将数据导入 Power BI 等 BI 工具进行可视化分析。
  3. 实现自动化的报表更新。

下一节预告:我们将演示如何利用 Power Query 快速将这些复杂的“中国式报表”清洗为标准的二维表。

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容