RAG篇「数据集构建」保姆级教程来了！

Datawhale干货

作者：吴锦凤，Datawhale优秀学习者

冬灵，Datawhale成员

首篇：零基础入门：DeepSeek微调教程来了！

前篇：微调篇「数据集构建」保姆级教程来了！

这次是「数据集构建」保姆级教程第二篇，会持续更新。

一、构建属于自己的知识库

检索增强生成（Retrieval Augmented Generation），简称 RAG。在构建RAG（Retrieval-Augmented Generation）的向量知识库时，数据的处理方式直接影响系统的性能和可靠性。不能随意塞入未经处理的数据，否则可能导致检索效果差、生成结果不准确甚至安全隐患。

二、构建向量知识库数据集强调事项

构建向量知识库数据集的基本步骤与微调数据集（见前篇）基本一致，但有以下注意强调事项。

数据质量直接影响结果（向量知识库数据集严禁噪声与微调不一样！！！）

问题：噪声、重复、低质数据会污染知识库，导致检索到无关内容。
解决方案：
- 清洗数据：去除HTML标签、特殊符号、乱码等噪声。
- 去重：合并相似内容，避免冗余数据干扰检索。
- 标准化：统一文本格式（如日期、单位）、大小写、标点符号。
- 质量筛选：优先保留权威来源、高可信度的内容。

数据与场景的匹配性

问题：知识库与应用场景偏离会导致检索失效。
解决方案：
- 场景过滤：仅保留与目标任务相关的数据（例如医疗场景需剔除无关行业内容）。
- 动态更新：定期增量更新数据，避免时效性内容过期。
- 冷启动优化：初期可引入人工标注的高质量种子数据。

安全与合规风险

问题：随意导入数据可能泄露敏感信息或引入偏见。
解决方案：
- 敏感信息过滤：使用NER识别并脱敏（如身份证号、电话号码）。
- 偏见检测：通过公平性评估工具（如Fairness Indicators）筛查歧视性内容。
- 权限控制：对知识库分级访问，限制敏感数据检索权限。

科技改变生活-雨落星辰 - 所有的伟大,都源于一个勇敢的开始

RAG篇「数据集构建」保姆级教程来了！

RAG篇「数据集构建」保姆级教程来了！

首篇：零基础入门：DeepSeek微调教程来了！

前篇：微调篇「数据集构建」保姆级教程来了！

这次是「数据集构建」保姆级教程第二篇，会持续更新。

一、构建属于自己的知识库

二、构建向量知识库数据集强调事项

数据质量直接影响结果（向量知识库数据集严禁噪声与微调不一样！！！）

数据与场景的匹配性

安全与合规风险

与本文相关的文章

评论列表(0)