EP002 实操演示:导入数据与初步清洗

    实操演示:导入数据与初步清洗

    1. 启动 Power Query 并导入数据

    我们将通过 Excel 的数据选项卡进入 Power Query 编辑器(还有其他很多种进入方式),并建立与源文件的连接。

    • 步骤一:点击 Excel 顶部的 【数据】 选项卡。
    • 步骤二:点击 【获取数据】 或直接启动 Power Query 编辑器
    • 步骤三:在编辑器中点击 【新建源】 -> 【文件】 -> 【Excel 工作簿】,选择我们需要清洗的那个表格文件。
    • 注意:导入时的预览窗口可能会截断部分数据(仅显示前几行),这是正常现象,直接点击 【确定】 即可。

    2. 观察数据变化:合并单元格去哪了?

    数据导入 PQ 编辑器后,你会发现一个显著的变化:所有的合并单元格都被自动取消了

    • 现象
      • 原表中像“基因班子”这样跨多行的合并单元格,现在被拆分了。
      • 拆分后,只有第一行保留了文本内容,下面原来的合并区域变成了 null (空值)
    • 结果
      • 现在表格变成了一个行列分明的二维表结构,不再有物理上的合并,但逻辑上出现了大量空洞(这是下一步清洗的重点)。

    3. 利用“数据预览”功能检查质量

    为了快速识别哪些列是无用的垃圾数据,我们需要开启视图中的辅助工具。

    • 操作
      1. 点击顶部菜单栏的 【视图】 标签。
      2. 【数据预览】 区域,将所有选项(如“列分布”、“列质量”等)全部勾选
    • 解读列质量信息
      • 当你选中某一列时,标题下方会出现一个横条和百分比数据。
      • 有效 (Valid):显示有效数据的占比。
      • 错误 (Error):显示数据出错的占比。
      • 空 (Empty):显示空值的占比。

    4. 清洗第一步:删除全空列

    通过刚才开启的“数据预览”,我们可以直观地看到每一列的数据健康状况。

    • 识别垃圾列
      • 观察每一列的质量条。
      • 如果显示 100% 为空 (Empty)(通常显示为黑色或灰色条),说明这一列没有任何数据。
    • 执行删除
      • 对于这些 100% 为空 的列,我们可以毫不犹豫地选中它们。
      • 右键 -> 删除(或点击主页菜单的“删除列”)。

    💡 经验总结数据清洗的第一步往往是“做减法”。通过 Power Query 的可视化数据质量功能,我们可以秒删那些肉眼可能忽略的空白废列,为后续的整理打下基础。

    © 版权声明
    THE END
    喜欢就支持一下吧
    点赞15 分享
    评论 抢沙发

    请登录后发表评论

      暂无评论内容