Lazy loaded image
🔱RAG项目实战推荐
Words 317Read Time 1 min
2025-9-22
2025-9-22
type
status
date
slug
summary
tags
category
icon
password
网址
在 GitHub 上看到一份学习 RAG(检索增强生成)比较好的教程:arxiv-paper-curator,通过 6 周时间带着我们用从零构建一个完整的生产级 RAG 系统「arXiv 论文精选器」。
采用循序渐进的教学方式,从基础设施搭建开始,逐步覆盖数据管道、关键词搜索、混合检索、LLM 集成,最终实现生产级监控和缓存优化。
主要内容:
  • 第 1 周:使用 Docker、FastAPI、PostgreSQL 等搭建完整基础设施;
  • 第 2 周:构建自动化数据管道,从 arXiv 获取和解析学术论文;
  • 第 3 周:实现 BM25 关键词搜索,掌握搜索系统的坚实基础;
  • 第 4 周:智能文档分块和混合检索,结合关键词与语义理解;
  • 第 5 周:集成本地 LLM 完成完整 RAG 流水线,支持流式响应;
  • 第 6 周:生产级监控与缓存优化,实现 150-400 倍性能提升。
每周都有详细的 Jupyter 笔记本指导和博客文章深度解析,有需要的同学可以学习看看。
notion image
 
上一篇
下一篇
VSCode + Claude Code

Comments
Loading...