type
status
date
slug
summary
tags
category
icon
password
网址
在 GitHub 上看到一份学习 RAG(检索增强生成)比较好的教程:arxiv-paper-curator,通过 6 周时间带着我们用从零构建一个完整的生产级 RAG 系统「arXiv 论文精选器」。
采用循序渐进的教学方式,从基础设施搭建开始,逐步覆盖数据管道、关键词搜索、混合检索、LLM 集成,最终实现生产级监控和缓存优化。
GitHub:github.com/jamwithai/arxi…
主要内容:
- 第 1 周:使用 Docker、FastAPI、PostgreSQL 等搭建完整基础设施;
- 第 2 周:构建自动化数据管道,从 arXiv 获取和解析学术论文;
- 第 3 周:实现 BM25 关键词搜索,掌握搜索系统的坚实基础;
- 第 4 周:智能文档分块和混合检索,结合关键词与语义理解;
- 第 5 周:集成本地 LLM 完成完整 RAG 流水线,支持流式响应;
- 第 6 周:生产级监控与缓存优化,实现 150-400 倍性能提升。
每周都有详细的 Jupyter 笔记本指导和博客文章深度解析,有需要的同学可以学习看看。

- Author:无敌宝宝男sp
- URL:http://www.wudibaobaoda.top/article/2764032f-33bf-80b0-a2e9-db72daab7052
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!