AI 学院
数据处理:数据清洗、整理、对比、剔除无效信息
数据处理:数据清洗、整理、对比、剔除无效信息
为什么用 AI 做数据处理?
数据处理是最耗时但也最机械的工作——去重、补全、格式统一、异常值剔除……一个人干半天,AI 几分钟搞定。
核心应用场景
| 场景 | 传统方式 | AI 方式 |
|---|---|---|
| 数据去重 | Excel 排序 + 肉眼找 | 告诉 AI 规则,自动标记 |
| 格式统一 | 手动逐条改 | AI 批量标准化 |
| 异常值剔除 | 画图找离群点 | AI 自动识别并标注 |
| 多表合并 | VLOOKUP 折腾半天 | 告诉 AI 关联逻辑 |
| 数据补全 | 空着或猜 | AI 根据上下文推理 |
一、数据清洗
数据清洗是数据处理的第一步,核心任务:去脏、去重、去空。
Prompt 模板
请帮我清洗以下数据集:
数据内容:
[粘贴数据或描述数据结构]
清洗规则:
1. 去除重复记录(判断标准:[如:手机号相同视为重复])
2. 标记空值/缺失值
3. 统一格式(如:日期统一为 YYYY-MM-DD,手机号去掉+86前缀)
4. 标记明显异常值
输出格式:清洗后的数据 + 被剔除/标记的记录列表
常见脏数据类型与处理方式
| 脏数据类型 | 示例 | AI 处理指令 |
|---|---|---|
| 格式不统一 | 13800001111 / 138-0000-1111 / +8613800001111 | "统一手机号格式为纯11位数字" |
| 日期混乱 | 2024-1-5 / 01/05/2024 / Jan 5th | "统一为 YYYY-MM-DD" |
| 重复记录 | 同一邮箱出现3次 | "按邮箱去重,保留最新记录" |
| 缺失字段 | 地址栏空白 | "标记缺失值,不删除,单独列出" |
| 异常数值 | 年龄填了999 | "标记超出合理范围的值" |
实操示例
场景:清洗一份客户名单
请帮我清洗以下客户名单数据(CSV格式):
[粘贴数据]
清洗要求:
1. 去除邮箱重复的记录(保留最新一条)
2. 手机号统一为11位纯数字格式
3. 邮箱统一为小写
4. 姓名中去除多余空格
5. 标记所有字段有缺失的记录
6. 统计:原始条数、去重后条数、缺失字段记录数
输出清洗后的数据和统计摘要。
二、数据格式标准化
Prompt 模板
请将以下数据统一为标准格式:
原始数据:
[粘贴数据]
目标格式:
- 姓名:中文姓名,首字母大写(英文)
- 手机:11位纯数字
- 邮箱:全小写
- 地址:省-市-区-详细地址
- 金额:保留2位小数,单位统一为元
- 日期:YYYY年MM月DD日
多源数据合并
我有两份数据需要合并:
数据A(订单表):
[粘贴或描述字段]
数据B(客户表):
[粘贴或描述字段]
关联字段:[如:客户ID / 手机号]
请帮我:
1. 说明两份数据的关联逻辑
2. 合并后输出完整记录
3. 标记匹配不上的记录(可能需要人工确认)
三、数据对比
Prompt 模板
请对比以下两份数据,找出差异:
数据A(本期):
[粘贴数据]
数据B(上期/竞品/目标):
[粘贴数据]
对比要求:
1. 列出所有变化的条目
2. 标注变化方向(上升/下降)和变化幅度
3. 标记新增和消失的条目
4. 总结最大的3个变化
常见对比场景
| 对比类型 | 目的 | 关键指标 |
|---|---|---|
| 环比(vs 上期) | 看短期趋势 | 变化率 |
| 同比(vs 去年同期) | 看长期趋势 | 增速 |
| 预算 vs 实际 | 看执行偏差 | 达成率 |
| 我方 vs 竞品 | 看竞争力 | 差距百分比 |
实操示例
场景:对比两个月的销售数据
请对比以下两个月的销售数据:
10月数据:
产品A:销量500,营收10万
产品B:销量300,营收6万
产品C:销量200,营收8万
11月数据:
产品A:销量480,营收9.6万
产品B:销量350,营收7.35万
产品C:销量250,营收10万
产品D:销量100,营收2万(新品)
要求:
1. 每个产品的环比变化率
2. 新增/消失的产品
3. 整体营收变化
4. 最值得关注的变化是什么
四、剔除无效信息
Prompt 模板
请从以下数据中剔除无效信息:
数据:
[粘贴数据]
无效信息判断规则:
- [如:手机号少于11位的记录]
- [如:邮箱格式不正确的记录]
- [如:金额为0或负数的订单]
- [如:日期在未来或超过10年前的记录]
请:
1. 列出被剔除的记录及原因
2. 输出清洗后的有效数据
3. 统计有效/无效记录数
自动异常值检测
以下是 [指标名称] 的数据分布,请帮我识别异常值:
数据:[粘贴数据]
判断方法:
- 超过平均值 ± 2个标准差视为异常
- 或超过上四分位数的 1.5 倍 IQR 视为异常
输出:
1. 异常值列表
2. 每个异常值的可能原因
3. 建议:保留、修正还是剔除
五、批量数据处理工作流
当数据量大(几百到几千条)时,分步骤处理:
第一步:结构审查
"请分析以下数据的结构和字段类型,指出可能的格式问题。"
第二步:清洗
"按以下规则清洗数据:[规则列表]"
第三步:标准化
"将清洗后的数据统一为以下格式:[格式要求]"
第四步:验证
"请检查清洗后的数据是否还有问题,随机抽查10条。"
实操建议
- 先小批量测试:先拿 10-20 条数据测试 Prompt,确认效果好再全量处理
- 保留原始数据:清洗前一定要备份原始文件
- 记录清洗规则:把清洗逻辑存下来,下次同类数据直接复用
- 分步验证:不要一口气全部清洗,分步骤、分字段检查
常见问题
Q:AI 处理数据的量有限制吗? A:单次建议不超过 5000 行。数据量大时,分批处理或者用 AI 生成 Python/Excel 脚本来跑。
Q:敏感数据怎么处理? A:先把姓名、手机号、身份证等脱敏(用占位符替换),再丢给 AI 处理。处理完再映射回来。
Q:清洗后的数据可以直接导入系统吗? A:建议人工抽查 5-10% 验证准确性,确认无误后再导入。AI 清洗正确率通常在 95%+,但不排除边界情况。