数据源不规范,从来都是数据分析的头号大忌。一份样式奇葩、数据很“脏”的原始数据表,会造成后续大量的时间都浪费在修改和查错上。
所以很多企业不惜花重金买 ERP 软件,很重要的一个原因就是从源头上保证了输入数据的规范性。
如果大家平时的工作中,还是免不了要用 Excel 表格人工收数,那如何才能快速整理并规范化原始数据呢?
案例:
下图是学校的成绩统计表,制表人将表格设计成这样是为了更好地展示,但是作为一份源数据表,它存在几个硬伤:1) 有合并单元格 2) 是二维表 3) 可能还有部分数据格式有误。
如果今后要用数据透视表对这样一张表格做进一步分析,无疑是有很大问题的。所以第一步,就是要把这张表转换成一份规范的一维表,以便后续分析使用。
作为教学案例,我列举的表格数据很少,实际情况下,可能有几十列、几千行,无数层合并单元格……那要整理到猴年马月去?
而用本文的方法,总共还不到 1 分钟,就能整理完这张奇葩数据表。
解决方案:
1. 选中数据表的任意单元格 --> 选择菜单栏的“数据”-->“从表格”
2. 在弹出的对话框中点击“确定”
数据表上传到了 Power Query 中,在这个过程中,如果有格式不规范的数字,比如前后空格、文本格式等,Power Query 都已经自动将它们洗干净了。
3. 选中“班级”列 --> 选择菜单栏的“转换”-->“填充”-->“向下”
原先合并单元格的班级列,不仅拆分开了,而且每个单元格中都自动填充了正确的班级。
4. 选中“语文”、“数学”、“英语”三列,选择菜单栏的“转换”-->“逆透视列”
二维表成功转换成了一维表。
5. 将最后两列的标题依次修改为“学科”和“成绩”。
6. 选择菜单栏的“主页”-->“关闭并上载”-->“关闭并上载”
一张规范的原始数据表就上传回 Excel 了。是不是不到 1 分钟?有了 Power Query 这个宝藏工具,再奇葩的源数据整理都变得易如反掌。
评论 (0)