实操演示:导入数据与初步清洗
1. 启动 Power Query 并导入数据
我们将通过 Excel 的数据选项卡进入 Power Query 编辑器(还有其他很多种进入方式),并建立与源文件的连接。
- 步骤一:点击 Excel 顶部的 【数据】 选项卡。
- 步骤二:点击 【获取数据】 或直接启动 Power Query 编辑器。
- 步骤三:在编辑器中点击 【新建源】 -> 【文件】 -> 【Excel 工作簿】,选择我们需要清洗的那个表格文件。
- 注意:导入时的预览窗口可能会截断部分数据(仅显示前几行),这是正常现象,直接点击 【确定】 即可。
2. 观察数据变化:合并单元格去哪了?
数据导入 PQ 编辑器后,你会发现一个显著的变化:所有的合并单元格都被自动取消了。
- 现象:
- 原表中像“基因班子”这样跨多行的合并单元格,现在被拆分了。
- 拆分后,只有第一行保留了文本内容,下面原来的合并区域变成了 null (空值)。
- 结果:
- 现在表格变成了一个行列分明的二维表结构,不再有物理上的合并,但逻辑上出现了大量空洞(这是下一步清洗的重点)。
3. 利用“数据预览”功能检查质量
为了快速识别哪些列是无用的垃圾数据,我们需要开启视图中的辅助工具。
- 操作:
- 点击顶部菜单栏的 【视图】 标签。
- 在 【数据预览】 区域,将所有选项(如“列分布”、“列质量”等)全部勾选。
- 解读列质量信息:
- 当你选中某一列时,标题下方会出现一个横条和百分比数据。
- 有效 (Valid):显示有效数据的占比。
- 错误 (Error):显示数据出错的占比。
- 空 (Empty):显示空值的占比。
4. 清洗第一步:删除全空列
通过刚才开启的“数据预览”,我们可以直观地看到每一列的数据健康状况。
- 识别垃圾列:
- 观察每一列的质量条。
- 如果显示 100% 为空 (Empty)(通常显示为黑色或灰色条),说明这一列没有任何数据。
- 执行删除:
- 对于这些 100% 为空 的列,我们可以毫不犹豫地选中它们。
- 右键 -> 删除(或点击主页菜单的“删除列”)。
💡 经验总结数据清洗的第一步往往是“做减法”。通过 Power Query 的可视化数据质量功能,我们可以秒删那些肉眼可能忽略的空白废列,为后续的整理打下基础。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END






暂无评论内容