<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Data on Peng Tan's AI Blog</title><link>https://c44db530.hobbytp-github-io.pages.dev/zh/tags/data/</link><description>一个关注 AI 各领域的专题博客</description><atom:link href="https://c44db530.hobbytp-github-io.pages.dev/zh/tags/data/index.xml" rel="self" type="application/rss+xml"/><item><title>计算受限观测者视角下的信息度量新范式 - 卡内基梅隆</title><link>https://c44db530.hobbytp-github-io.pages.dev/zh/papers/epiplexity/</link><pubDate>Wed, 18 Feb 2026 22:10:00 +0800</pubDate><guid>https://c44db530.hobbytp-github-io.pages.dev/zh/papers/epiplexity/</guid><description>论文探讨了人工智能领域中数据选择与泛化能力的关系，并提出了核心概念“Epiplexity”（外延复杂度）。作者指出，传统的信息论在面对计算受限的观察者时存在局限性，无法准确衡量数据中可被学习的结构化信息**。通过分析三个信息悖论，研究揭示了数据的排列顺序、计算约束以及涌现现象如何影响模型获取信息。实验证明，Epiplexity 能够比传统的交叉熵（Entropy）更有效地预测模型在分布外任务（OOD）上的表现。该理论为优化预训练数据选择提供了数学工具，强调了在资源有限的情况下，结构信息的提取是提升通用智能的关键。</description></item></channel></rss>