<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>RL on Peng Tan's AI Blog</title><link>https://c44db530.hobbytp-github-io.pages.dev/zh/tags/rl/</link><description>一个关注 AI 各领域的专题博客</description><atom:link href="https://c44db530.hobbytp-github-io.pages.dev/zh/tags/rl/index.xml" rel="self" type="application/rss+xml"/><item><title>Agent训练新范式：Agent Learning via Early Experience</title><link>https://c44db530.hobbytp-github-io.pages.dev/zh/meta/agent_learn_by_early_experience/</link><pubDate>Tue, 14 Oct 2025 18:00:00 +0800</pubDate><guid>https://c44db530.hobbytp-github-io.pages.dev/zh/meta/agent_learn_by_early_experience/</guid><description>传统AI训练像是把人类所有的知识都强行灌输AI，而Meta的最新论文《Agent Learning via Early Experience》为我们展示了一条训练AI智能体的新路径: 可扩展、无需奖励的实用范式，通过将智能体自身的行为和结果转化为强大的监督信号，显著提升了AI的性能、数据效率和泛化能力。</description></item><item><title>强化学习的奠基人的惊人警告：为什么说LLM可能是一条死胡同？</title><link>https://c44db530.hobbytp-github-io.pages.dev/zh/celebrity_insights/richard_sutton/</link><pubDate>Thu, 02 Oct 2025 09:10:00 +0800</pubDate><guid>https://c44db530.hobbytp-github-io.pages.dev/zh/celebrity_insights/richard_sutton/</guid><description>强化学习的奠基人惊人警告：为什么说LLM可能是一条死胡同？</description></item><item><title>Agent Lightning</title><link>https://c44db530.hobbytp-github-io.pages.dev/zh/mas/agent_lightning/</link><pubDate>Wed, 27 Aug 2025 20:10:00 +0800</pubDate><guid>https://c44db530.hobbytp-github-io.pages.dev/zh/mas/agent_lightning/</guid><description>&lt;h2 id="介绍">介绍&lt;/h2>
&lt;p>微软开源的 &lt;strong>Agent Lightning&lt;/strong> 项目，它的核心价值在于为开发者和研究者提供了一个强大的工具，用于&lt;strong>训练和优化 AI Agent（智能代理）&lt;/strong>，特别是&lt;strong>几乎不需要修改现有 Agent 代码&lt;/strong>就能实现显著的性能提升。&lt;/p></description></item></channel></rss>