type
status
date
slug
summary
tags
category
icon
password
网址
想深入了解 ChatGPT、Claude 这些 AI 背后的训练机制,尤其是它们背后那套如何通过人类反馈变得越来越智能的原理。
可以看下,来自加州大学数学系教授 Ernest K. Ryu 开设的《大语言模型的强化学习》课程,配套 PPT 和视频可以免费学习。
课程从深度强化学习基础讲起,逐步深入到 Transformer 架构和现代 LLM 技术,最后聚焦于 RLHF(人类反馈强化学习)等前沿训练方法,系统讲解了如何让 AI 模型变得更智能、更符合人类偏好。
主要内容:
- 深度强化学习基础:MDP 理论、策略梯度方法(A3C、PPO)等核心算法;
- 大语言模型架构:从 RNN 到 Transformer,涵盖 BERT、GPT 等经典模型;
- LLM 强化学习训练:详解 RLHF、DPO 等让模型遵循人类指令的技术;
- AlphaGo 原理和专家迭代:学习如何提升模型的推理能力。
课程要求大家需要具备一定深度学习基础,提供视频教学和 Jupyter 代码示例可直接运行,理论与实践结合。

- Author:无敌宝宝男sp
- URL:http://www.wudibaobaoda.top/article/29e4032f-33bf-806e-bb20-f43685e35c28
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!







