精选手游网

苹果创新“清单法”：用 AI 大模型当“老师”，教小模型更精准执行复杂指令

2025-08-26 15:39:31 作者：精选手游网

本站 8 月 26 日消息，科技媒体 9to5Mac 昨日（8 月 25 日）发布博文，报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”（RLCF）方法，用任务清单替代传统人类点赞 / 点踩评分，显著提升大语言模型（LLMs）执行复杂指令能力。

本站注：RLCF 的全称为 Reinforcement Learning from Checklist Feedback，不同于传统的“人类反馈强化学习”（RLHF）依赖人工点赞 / 点踩，RLCF 为每条用户指令生成具体的检查清单，并按 0-100 分逐项评分，用以指导模型优化。

研究团队在强指令跟随模型 Qwen2.5-7B-Instruct 上测试该方法，涵盖五个常用评测基准。结果显示，RLCF 是唯一在全部测试中均取得提升的方案：

FollowBench 硬性满意率提升 4 个百分点

InFoBench 提高 6 点

Arena-Hard 胜率增加 3 点

某些任务最高提升达 8.2%。

这表明清单反馈在复杂、多步骤需求的执行中效果显著。

清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5-72B-Instruct 模型，结合既有研究方法，为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项，例如“是否翻译成西班牙语？”。随后，大模型对候选回答逐项打分，综合加权后作为小模型的训练奖励信号。

苹果研究者也坦言该方法存在局限。首先，它依赖更强模型作为评判者，这在资源受限场景下未必可行。其次，RLCF 专注于提升复杂指令执行能力，并非设计用于安全对齐，因此不能替代安全性评估与调优。对于其他任务类型，该方法的适用性仍需进一步验证。

小编推荐

喵嗷漫画最新版本2025下载正版-喵嗷漫画最新2025免费下载安卓官网版v1.4 精选资讯
苹果 iOS / iPadOS 26 Beta 8 发布，预估是其最后 1 个开发者预览版精选资讯
桐秋阅读app下载-桐秋阅读安卓版下载v3.4.6 精选资讯
阿维塔 06 新车首批搭载华为 ADS 4、鸿蒙座舱 5，成都车展上市精选资讯
索尼高管回应《星鸣特攻》溃败 "早失败"是好事精选资讯
前《妮姬》画师担任主美新作公开主视觉图张力拉满精选资讯
殷无邪万剑冢新皮肤揭秘幽城再临，获取攻略介绍精选资讯
多人社交推理恐怖游戏《BACKROOMS: 恐惧》8月15日在Steam正式上线精选资讯
解限机飓风机甲堤丰涂装配色怎么推荐精选资讯
《死域Rogue》死域游戏存档在哪里详解与查找指南精选资讯

排行榜

手游排行软件排行

IGN死不承认黑神话受欢迎，被玩家狂刷小丑标签
2024-10-13

v68.35 100.433MB

详情
东方月神夜实体版将于2025年3月推出，涵盖PS与NS版
2024-10-13

v48.28 75.647MB

详情
怪物猎人：荒野公开全新宣传片，展示封面怪与发售日
2024-10-13

v67.76 88.221MB

详情
IGN年度游戏引质疑，凌晨五点黑神话支持率骤降
2024-10-13

v92.17 66.166MB

详情
机甲战队攻击类机甲一览
2024-10-13

v63.39 82.379MB

详情
宾果消消消第2关通关攻略
2024-10-13

v89.51 79.596MB

详情
宾果消消消第3关通关攻略
2024-10-13

v75.54 82.646MB

详情
机甲战队中型机甲一览
2024-10-13

v18.28 54.420MB

详情
贪吃蛇大作战长度上万技巧分享
2024-10-13

v37.59 100.994MB

详情
NBA巅峰对决球员六大属性一览
2024-10-13

v82.36 27.128MB

详情

点击查看更多