LLM on Peng Tan's AI Blog

计算受限观测者视角下的信息度量新范式 - 卡内基梅隆

Wed, 18 Feb 2026 22:10:00 +0800

论文探讨了人工智能领域中数据选择与泛化能力的关系，并提出了核心概念“Epiplexity”（外延复杂度）。作者指出，传统的信息论在面对计算受限的观察者时存在局限性，无法准确衡量数据中可被学习的结构化信息**。通过分析三个信息悖论，研究揭示了数据的排列顺序、计算约束以及涌现现象如何影响模型获取信息。实验证明，Epiplexity 能够比传统的交叉熵（Entropy）更有效地预测模型在分布外任务（OOD）上的表现。该理论为优化预训练数据选择提供了数学工具，强调了在资源有限的情况下，结构信息的提取是提升通用智能的关键。

Karpathy: 2025 年大语言模型年度回顾

Sat, 20 Dec 2025 22:30:00 +0800

Karpathy大神在2025年年底的时候多大模型这一年的发展做了一个年度总结,我搬运过来，翻译了一下。

小米大模型全景调研 2025

Fri, 19 Dec 2025 23:10:00 +0800

基于最新的公开信息与技术披露，小米在大模型领域的端侧轻量化与云端推理优化双轮驱动的完整分析

DeepSeekMath-V2 技术白皮书：迈向自验证数学推理

Sat, 29 Nov 2025 12:10:00 +0800

本文介绍了DeepSeekMath-V2，旨在克服传统上依赖最终答案的数学推理奖励机制的局限性。其核心创新在于通过训练一个专门的证明验证器来评估推导的逻辑严谨性，从而实现自我可验证的数学推理能力。该系统引入了元验证过程，以确保验证器识别的错误是准确的，并利用此验证器作为奖励模型来训练生成器进行自我评估和迭代优化。这种生成与验证的协同作用创建了一个循环，通过扩展计算规模来自动标注难以验证的新证明，从而提高了系统的能力。

AI的“知识僵化症”有救了？揭秘MIT自适应大模型SEAL

Wed, 29 Oct 2025 14:20:00 +0800

麻省理工学院（MIT）的一项开创性研究，为我们揭示了这场进化的具体路径。他们推出了一个名为 **SEAL (Self-Adapting Large Language Models，自适应大语言模型)** 的框架。这套框架首次赋予了AI模型一种前所未有的能力：它们可以“自己教自己”，通过生成和应用自己的学习材料，来持续进化其内部的知识体系。

Verbalized Sampling: 言语采样提升模型多样性

Mon, 27 Oct 2025 20:22:48 +0800

Verbalized Sampling: 言语采样提升模型多样性

Meta: 提示词对决优化器 (PDO)

Sun, 26 Oct 2025 20:22:48 +0800

这篇由Meta和宾夕法尼亚州立大学的研究者发布的论文提出了一种创新的、无需人工标注数据的提示词优化方法。

强化学习的奠基人的惊人警告：为什么说LLM可能是一条死胡同？

Thu, 02 Oct 2025 09:10:00 +0800

强化学习的奠基人惊人警告：为什么说LLM可能是一条死胡同？

Gemini 2.5 Pro 在 IMO 2025 中的高级数学推理能力评估

Thu, 14 Aug 2025 22:10:00 +0800

Gemini 2.5 Pro 在 IMO 2025 数学奥林匹克竞赛中取得优异成绩，关键在于结合了强大的数学推理能力与自我验证迭代流程，有效避免逻辑错误和表面化思维，实现了接近人类专家的严谨解题表现。

Claude-Code-Router：AI 时代的智能路由中枢

Tue, 12 Aug 2025 22:10:00 +0800

Claude-Code-Router (CCR) 是一款创新的AI模型智能路由工具，它通过拦截Claude Code 应用对Anthropic Claude模型的请求，进行多维度分析（如Token数量、用户指令、任务类型），然后依据动态路由规则和配置，将请求智能地导向最合适的AI模型（来自如Gemini、DeepSeek、本地Ollama模型等不同的模型服务提供商）。CCR的核心机制包括API格式的自动转换与适配、基于Express.js的中间件架构、异步请求处理，以及完善的错误检测、自动降级到兜底模型和潜在的重试策略，旨在提升AI服务调用的效率、灵活性和成本效益。

Context Engineering

Tue, 12 Aug 2025 22:10:00 +0800

Context Engineering 是大型语言模型（LLM）应用中的系统性技术，旨在通过动态构建、管理和优化输入模型的信息负载（包括指令、记忆、工具输出、外部知识等），提升模型在复杂任务中的性能、稳定性和可靠性。

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

Fri, 04 Jul 2025 22:30:00 +0800

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

Llama 4 模型系列

Thu, 03 Apr 2025 16:10:00 +0800

本文介绍了Llama 4 模型系列详细解读。

DeepSeek 开源 LLM 对闭源 LLM 的影响

Tue, 18 Feb 2025 23:20:00 +0800

本文介绍了DeepSeek开源LLM对闭源LLM的影响，包括性能基准测试和竞争、成本效益、开源可用性和定制、市场动态和战略转变、创新与社区发展、环境影响以及AI研究和应用的转变。