AI 学院

数据处理：数据清洗、整理、对比、剔除无效信息

为什么用 AI 做数据处理？

数据处理是最耗时但也最机械的工作——去重、补全、格式统一、异常值剔除……一个人干半天，AI 几分钟搞定。

核心应用场景

场景	传统方式	AI 方式
数据去重	Excel 排序 + 肉眼找	告诉 AI 规则，自动标记
格式统一	手动逐条改	AI 批量标准化
异常值剔除	画图找离群点	AI 自动识别并标注
多表合并	VLOOKUP 折腾半天	告诉 AI 关联逻辑
数据补全	空着或猜	AI 根据上下文推理

一、数据清洗

数据清洗是数据处理的第一步，核心任务：去脏、去重、去空。

Prompt 模板

请帮我清洗以下数据集：

数据内容：
[粘贴数据或描述数据结构]

清洗规则：
1. 去除重复记录（判断标准：[如：手机号相同视为重复]）
2. 标记空值/缺失值
3. 统一格式（如：日期统一为 YYYY-MM-DD，手机号去掉+86前缀）
4. 标记明显异常值

输出格式：清洗后的数据 + 被剔除/标记的记录列表

常见脏数据类型与处理方式

脏数据类型	示例	AI 处理指令
格式不统一	13800001111 / 138-0000-1111 / +8613800001111	"统一手机号格式为纯11位数字"
日期混乱	2024-1-5 / 01/05/2024 / Jan 5th	"统一为 YYYY-MM-DD"
重复记录	同一邮箱出现3次	"按邮箱去重，保留最新记录"
缺失字段	地址栏空白	"标记缺失值，不删除，单独列出"
异常数值	年龄填了999	"标记超出合理范围的值"

实操示例

场景：清洗一份客户名单

请帮我清洗以下客户名单数据（CSV格式）：

[粘贴数据]

清洗要求：
1. 去除邮箱重复的记录（保留最新一条）
2. 手机号统一为11位纯数字格式
3. 邮箱统一为小写
4. 姓名中去除多余空格
5. 标记所有字段有缺失的记录
6. 统计：原始条数、去重后条数、缺失字段记录数

输出清洗后的数据和统计摘要。

二、数据格式标准化

Prompt 模板

请将以下数据统一为标准格式：

原始数据：
[粘贴数据]

目标格式：
- 姓名：中文姓名，首字母大写（英文）
- 手机：11位纯数字
- 邮箱：全小写
- 地址：省-市-区-详细地址
- 金额：保留2位小数，单位统一为元
- 日期：YYYY年MM月DD日

多源数据合并

我有两份数据需要合并：

数据A（订单表）：
[粘贴或描述字段]

数据B（客户表）：
[粘贴或描述字段]

关联字段：[如：客户ID / 手机号]

请帮我：
1. 说明两份数据的关联逻辑
2. 合并后输出完整记录
3. 标记匹配不上的记录（可能需要人工确认）

三、数据对比

Prompt 模板

请对比以下两份数据，找出差异：

数据A（本期）：
[粘贴数据]

数据B（上期/竞品/目标）：
[粘贴数据]

对比要求：
1. 列出所有变化的条目
2. 标注变化方向（上升/下降）和变化幅度
3. 标记新增和消失的条目
4. 总结最大的3个变化

常见对比场景

对比类型	目的	关键指标
环比（vs 上期）	看短期趋势	变化率
同比（vs 去年同期）	看长期趋势	增速
预算 vs 实际	看执行偏差	达成率
我方 vs 竞品	看竞争力	差距百分比

实操示例

场景：对比两个月的销售数据

请对比以下两个月的销售数据：

10月数据：
产品A：销量500，营收10万
产品B：销量300，营收6万
产品C：销量200，营收8万

11月数据：
产品A：销量480，营收9.6万
产品B：销量350，营收7.35万
产品C：销量250，营收10万
产品D：销量100，营收2万（新品）

要求：
1. 每个产品的环比变化率
2. 新增/消失的产品
3. 整体营收变化
4. 最值得关注的变化是什么

四、剔除无效信息

Prompt 模板

请从以下数据中剔除无效信息：

数据：
[粘贴数据]

无效信息判断规则：
- [如：手机号少于11位的记录]
- [如：邮箱格式不正确的记录]
- [如：金额为0或负数的订单]
- [如：日期在未来或超过10年前的记录]

请：
1. 列出被剔除的记录及原因
2. 输出清洗后的有效数据
3. 统计有效/无效记录数

自动异常值检测

以下是 [指标名称] 的数据分布，请帮我识别异常值：

数据：[粘贴数据]

判断方法：
- 超过平均值 ± 2个标准差视为异常
- 或超过上四分位数的 1.5 倍 IQR 视为异常

输出：
1. 异常值列表
2. 每个异常值的可能原因
3. 建议：保留、修正还是剔除

五、批量数据处理工作流

当数据量大（几百到几千条）时，分步骤处理：

第一步：结构审查
"请分析以下数据的结构和字段类型，指出可能的格式问题。"

第二步：清洗
"按以下规则清洗数据：[规则列表]"

第三步：标准化
"将清洗后的数据统一为以下格式：[格式要求]"

第四步：验证
"请检查清洗后的数据是否还有问题，随机抽查10条。"

实操建议

先小批量测试：先拿 10-20 条数据测试 Prompt，确认效果好再全量处理
保留原始数据：清洗前一定要备份原始文件
记录清洗规则：把清洗逻辑存下来，下次同类数据直接复用
分步验证：不要一口气全部清洗，分步骤、分字段检查

常见问题

Q：AI 处理数据的量有限制吗？ A：单次建议不超过 5000 行。数据量大时，分批处理或者用 AI 生成 Python/Excel 脚本来跑。

Q：敏感数据怎么处理？ A：先把姓名、手机号、身份证等脱敏（用占位符替换），再丢给 AI 处理。处理完再映射回来。

Q：清洗后的数据可以直接导入系统吗？ A：建议人工抽查 5-10% 验证准确性，确认无误后再导入。AI 清洗正确率通常在 95%+，但不排除边界情况。