AI 学院

数据处理:数据清洗、整理、对比、剔除无效信息

数据处理:数据清洗、整理、对比、剔除无效信息

为什么用 AI 做数据处理?

数据处理是最耗时但也最机械的工作——去重、补全、格式统一、异常值剔除……一个人干半天,AI 几分钟搞定。

核心应用场景

场景传统方式AI 方式
数据去重Excel 排序 + 肉眼找告诉 AI 规则,自动标记
格式统一手动逐条改AI 批量标准化
异常值剔除画图找离群点AI 自动识别并标注
多表合并VLOOKUP 折腾半天告诉 AI 关联逻辑
数据补全空着或猜AI 根据上下文推理

一、数据清洗

数据清洗是数据处理的第一步,核心任务:去脏、去重、去空

Prompt 模板

请帮我清洗以下数据集:

数据内容:
[粘贴数据或描述数据结构]

清洗规则:
1. 去除重复记录(判断标准:[如:手机号相同视为重复])
2. 标记空值/缺失值
3. 统一格式(如:日期统一为 YYYY-MM-DD,手机号去掉+86前缀)
4. 标记明显异常值

输出格式:清洗后的数据 + 被剔除/标记的记录列表

常见脏数据类型与处理方式

脏数据类型示例AI 处理指令
格式不统一13800001111 / 138-0000-1111 / +8613800001111"统一手机号格式为纯11位数字"
日期混乱2024-1-5 / 01/05/2024 / Jan 5th"统一为 YYYY-MM-DD"
重复记录同一邮箱出现3次"按邮箱去重,保留最新记录"
缺失字段地址栏空白"标记缺失值,不删除,单独列出"
异常数值年龄填了999"标记超出合理范围的值"

实操示例

场景:清洗一份客户名单

请帮我清洗以下客户名单数据(CSV格式):

[粘贴数据]

清洗要求:
1. 去除邮箱重复的记录(保留最新一条)
2. 手机号统一为11位纯数字格式
3. 邮箱统一为小写
4. 姓名中去除多余空格
5. 标记所有字段有缺失的记录
6. 统计:原始条数、去重后条数、缺失字段记录数

输出清洗后的数据和统计摘要。

二、数据格式标准化

Prompt 模板

请将以下数据统一为标准格式:

原始数据:
[粘贴数据]

目标格式:
- 姓名:中文姓名,首字母大写(英文)
- 手机:11位纯数字
- 邮箱:全小写
- 地址:省-市-区-详细地址
- 金额:保留2位小数,单位统一为元
- 日期:YYYY年MM月DD日

多源数据合并

我有两份数据需要合并:

数据A(订单表):
[粘贴或描述字段]

数据B(客户表):
[粘贴或描述字段]

关联字段:[如:客户ID / 手机号]

请帮我:
1. 说明两份数据的关联逻辑
2. 合并后输出完整记录
3. 标记匹配不上的记录(可能需要人工确认)

三、数据对比

Prompt 模板

请对比以下两份数据,找出差异:

数据A(本期):
[粘贴数据]

数据B(上期/竞品/目标):
[粘贴数据]

对比要求:
1. 列出所有变化的条目
2. 标注变化方向(上升/下降)和变化幅度
3. 标记新增和消失的条目
4. 总结最大的3个变化

常见对比场景

对比类型目的关键指标
环比(vs 上期)看短期趋势变化率
同比(vs 去年同期)看长期趋势增速
预算 vs 实际看执行偏差达成率
我方 vs 竞品看竞争力差距百分比

实操示例

场景:对比两个月的销售数据

请对比以下两个月的销售数据:

10月数据:
产品A:销量500,营收10万
产品B:销量300,营收6万
产品C:销量200,营收8万

11月数据:
产品A:销量480,营收9.6万
产品B:销量350,营收7.35万
产品C:销量250,营收10万
产品D:销量100,营收2万(新品)

要求:
1. 每个产品的环比变化率
2. 新增/消失的产品
3. 整体营收变化
4. 最值得关注的变化是什么

四、剔除无效信息

Prompt 模板

请从以下数据中剔除无效信息:

数据:
[粘贴数据]

无效信息判断规则:
- [如:手机号少于11位的记录]
- [如:邮箱格式不正确的记录]
- [如:金额为0或负数的订单]
- [如:日期在未来或超过10年前的记录]

请:
1. 列出被剔除的记录及原因
2. 输出清洗后的有效数据
3. 统计有效/无效记录数

自动异常值检测

以下是 [指标名称] 的数据分布,请帮我识别异常值:

数据:[粘贴数据]

判断方法:
- 超过平均值 ± 2个标准差视为异常
- 或超过上四分位数的 1.5 倍 IQR 视为异常

输出:
1. 异常值列表
2. 每个异常值的可能原因
3. 建议:保留、修正还是剔除

五、批量数据处理工作流

当数据量大(几百到几千条)时,分步骤处理:

第一步:结构审查
"请分析以下数据的结构和字段类型,指出可能的格式问题。"

第二步:清洗
"按以下规则清洗数据:[规则列表]"

第三步:标准化
"将清洗后的数据统一为以下格式:[格式要求]"

第四步:验证
"请检查清洗后的数据是否还有问题,随机抽查10条。"

实操建议

  1. 先小批量测试:先拿 10-20 条数据测试 Prompt,确认效果好再全量处理
  2. 保留原始数据:清洗前一定要备份原始文件
  3. 记录清洗规则:把清洗逻辑存下来,下次同类数据直接复用
  4. 分步验证:不要一口气全部清洗,分步骤、分字段检查

常见问题

Q:AI 处理数据的量有限制吗? A:单次建议不超过 5000 行。数据量大时,分批处理或者用 AI 生成 Python/Excel 脚本来跑。

Q:敏感数据怎么处理? A:先把姓名、手机号、身份证等脱敏(用占位符替换),再丢给 AI 处理。处理完再映射回来。

Q:清洗后的数据可以直接导入系统吗? A:建议人工抽查 5-10% 验证准确性,确认无误后再导入。AI 清洗正确率通常在 95%+,但不排除边界情况。