当前位置：首页 >风点看 >推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

2025-07-13 03:52:08 [热点] 来源：聚焦观测站- 走进文化，感受无限趣事

2025 年 1 月 20 日 Kimi k1.5 正式发布，推特伴随着工艺报告的热帖公布，有网友表示：“这应该是因为艺全球范围内，除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧！”

一时间，项工Kimi k1.5 成了话题王者。推特广州学院内幕评论

但在一个月后的热帖 2 月 24 日，X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖，博主直言 k1.5 所用到的作团强化学习运算规则，其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。

消息一出，推特瞬间吸引了数万人关注。热帖

推特热帖：k1.5 很牛，因为艺因为借鉴了 UCLA 与 CMU 合作团队的作团这项工艺

Kimi k1.5 背后的 SPPO 工艺

在这则爆料中，博主 Yue Wu 先是项工对 SPPO 进行了简单解释，并且附上了相关论文（https://arxiv.org/abs/2405.00675），简单来说，SPPO是一种自博弈运算规则，最初的动机来源于刻画广泛意义上的人类偏好，并且使用了如下图所示的平方损失函数：

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的<strong>上海大学绯闻推荐</strong>这项工艺

值得一提的是，点开论文链接，你会发现原来 Yue Wu 和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

紧接着，他开始对 SPPO 工艺进行解析：

通过迭代求解上式中的 theta_t，我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率（红色部分）作为奖励，并用常数近似基线（蓝色部分）。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

让我们感兴趣的是，我们发现它与 RLHF 目标的策略梯度有着深层的联系：如果我们直接用普通的策略梯度优化 RLHF （人类反馈强化学习）目标会怎样？根据策略梯度定理，策略梯度实际上也具有平方损失形式（蓝色项是策略梯度中的基线）：

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

从数学上，我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体：

SPPO 中的胜率充当奖励函数（红色部分）。

分区函数项自然地成为（软）值函数（蓝色部分）。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

那么这到底意味着什么呢？

标准策略梯度（PPO、GRPO、REINFORCE）在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次，然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成！

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

上述分析揭示了大型语言模型（LLM）后训练阶段一个有趣的增长趋势：

离线 DPO（IPO、KTO 等）取代 RLHF（奖励模型 + 强化学习）

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

鉴于 GRPO（Deepseek-R1）和平方损失（Kimi k1.5）的成功，端到端强化学习的强大作用愈发凸显，或许在大型语言模型（LLM）后训练阶段无需额外技巧——价值函数、广义优势估计（GAE），甚至梯度裁剪都无需使用。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

另一个简单但有趣的发现是，他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

在我们后续的研究 GPO 中，我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度，但它是以迭代的方式进行的。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

SPPO 工艺背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外，Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授，博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授，目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

除此之外，2023 年至今他一共参与发布了 9 篇 Paper，其中 3 篇均为第一作者。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

强大的学术背景之外，Wu Yue 的实习经历也非常加分。2022 年至 2024 年，他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间，Wu Yue 从事个性化联邦学习研究，并开发了一种基于混合模型的方法，该方法被 ICML 2023 接受发表；在字节美国 AI lab 时，他专注于药品发现领域的多构象生成，将分子动力学的物理先验纳入基于扩散的生成模型，相关成果被 ICML 2024 接受；来到 Meta 后，Wu Yue 又致力于词汇级别奖励建模和新架构设计，用于一般人类偏好和一般偏好优化，为生成式机器智能的增长做出了贡献。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺雷峰网(公众号：雷峰网)还了解到，与他同为第一作者的 Zhiqing Sun ，目前已经从 CMU 毕业，并在今年 2 月加入 OpenAI。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

(责任编辑：快秀)

相关内容

推荐文章

对话中科深智成维忠：数字人的关键是交互，交互的关键是大模型
作者丨王悦编辑丨董子博“今年的数字人市场迎来了天翻地覆的变化。”中科深智创始人成维忠对目前国内的数字人市场如是评价。过去，国内数字人企业真正做技术的并不多，大部分以IP打造为主。出道即巅峰的虚拟美妆达 ...[详细]
日本首相石破茂：赌上国运战斗，不能被美国看扁
据环球网援引日本共同社报道，日本首相石破茂9日在为自民党参议院选举候选人拉票时，在街头演讲中谈到日美关税谈判。石破茂向日本民众表示，关税谈判“是场赌上国家利益的战斗，怎么能忍受被对方看扁。”石破茂9日 ...[详细]
特朗普宣布将对巴西征收50%关税巴回应称不公平
来源：财联社财联社7月10日电，据央视新闻报道，美国总统特朗普表示美国将自2025年8月1日起对所有巴西产物征收50%的关税。巴西副总统兼增长、工业、贸易和支持部长热拉尔多·阿尔克明当天表示，特朗普宣 ...[详细]
四天六轮谈不拢？加沙停火谈判卡在这三件事
当地时间9日，正在卡塔尔首都多哈进行的新一轮加沙地带停火谈判进入第四天。以色列和巴勒斯坦伊斯兰抵抗运动哈马斯）的谈判小组举行了本轮谈判重启以来的第六轮间接会谈，但尚未取得突破性进展。闭门谈判持续四天 ...[详细]
特朗普表示最近中美关系有所改善，外交部回应
【环球时报-环球网报道记者李萌】在7月9日外交部例行记者会上，有记者提问称，美国总统特朗普日前表示，最近中美关系有所改善，中国政府在贸易领域一直对美进行一种公平的政策，外交部如何看待这个表态？对此， ...[详细]
国务院任免国家工作人员
国务院任免国家工作人员。任命杨维林为公安部副部长；任命武增女）为司法部副部长；任命袁晓明为商务部部长助理；任命李金华为国家林业和草原局国家公园管理局）副局长；任命孙硕鹏为中国老龄协会会长。免去陈思源、 ...[详细]
今日辟谣（2025年7月9日）
来源：中国互联网联合辟谣平台2025年7月9日辟谣“四川峨眉山人猴大战，猴王被当场击毙”系谣言详情：近日，有关“峨眉山人猴大战再次爆发，猴王当场被击毙”的消息在网络上传播，引发社会关注。经核实，该消 ...[详细]
尹锡悦再被捕，或“牢底坐穿”
韩国首尔中央地方法院10日凌晨签发对前总统尹锡悦的逮捕令。负责调查紧急戒严事件的特检组随后实施逮捕。这是尹锡悦获释4个月后再次被捕。当地时间2025年7月9日，韩国首尔，韩国前总统尹锡悦中）抵达法院， ...[详细]
昆仑万维开源「天工」13B系列大模型，0门槛商用
10月30日，昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列，并罕见地配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B ...[详细]
商务部回应冯德莱恩涉华言论
7月10日，商务部召开例行新闻发布会。有记者提问，欧盟委员会主席冯德莱恩近日发表演讲，指责中国市场准入、补贴、政府采购、出口管制、产能过剩等问题。请问商务部对此有何评论？商务部新闻发言人何咏前表示，商 ...[详细]

热点阅读

随机内容

友情链接

接受PR>=1、BR>=1，流量相当，内容相关类链接。