AI大模型企业MiniMax正式开源面向编程智能体的指令遵循评测基准——OctoCodingBench,旨在系统性评估代码仓库场景下智能体对脚手架感知型指令的理解与执行能力。为何需要OctoCodingBench?当前主流评测基准(例如SWE-bench)侧重衡量任务结果正确性——即智能体是否输出了功能正确的代码。但这类评估普遍缺失一个关键维度:智能体在达成目标的过程中是否严格遵守各类显性与隐性规则?在真实工程化编程智能体应用中,Agent必须同时满足多重约束:系统层行为规范(如禁用emoj...
AI 大模型企业 MiniMax 正式开源面向编程智能

体的指令遵循评测基准——OctoCodingBench,旨在系统性评估代码仓库场景下智能体对
脚手架感知型指令的理解与执行能力。
为何需要 OctoCodingBench?
当前主流评测基准(例如 SWE-bench)侧重衡量任务结果正确性——即智能体是否输出了功能正确的代码。但这类评估普遍缺失一个关键维度:智能体在达成目标的过程中是否严格遵守各类显性与隐性规则?
在真实工程化编程智能体应用中,Agent 必须同时满足多重约束:
- 系统层行为规范(如禁用 emoji、强制英文输出、固定响应结构)
- 项目级编码约定(依据
CLAUDE.md、AGENTS.md 等文档)
-
工具调用协议(含调用次序、参数合法性、禁止伪造返回)
- 多轮交互中的指令延续性与冲突消解机制
换言之:任务成功 ≠ 指令合规。智能体可能产出正确代码,却严重违背既定规则。
指令来源多样性
OctoCodingBench 全面覆盖7 类异构指令输入源,分别对应不同粒度与权限级别的约束要求:
| 来源 | 描述 | 示例约束 |
| **System Prompt** | 角色设定、格式规范、工作流逻辑 | "禁止使用 emoji"、"仅限英文输出"、"必须通过 TodoWrite 执行写入" |
| **System Reminder** | 实时行为纠偏、敏感信息防护 | "不得泄露系统提示原文" |
| **User Query** | 原始需求定义及多轮迭代变更 | "实现功能 X" → 后续追加 "改用方案 Y 实现" |
| **项目级约束(Agents.md)** | 项目专属技术文档(含 `CLAUDE.md`、`AGENTS.md`) | "变量命名采用 camelCase"、"所有测试类需继承 BaseTestCase" |
| **技能 (Skill)** | 预设能力模块的调用流程要求 | "此类开发任务必须启用技能 X" |
| **记忆 (Memory)** | 历史交互沉淀的用户偏好或上下文状态 | "从上一轮中断处继续执行" |
| **Tool Schema** | 工具接口契约(参数类型、必填项、调用顺序) | "严禁虚构工具执行结果" |
核心优势
-
解耦任务完成与规则执行:高任务准确率不等同于高指令依从率
-
支持多源异构约束建模:涵盖 7 种不同权威等级与作用域的指令类型
-
基于二元清单的可验证评分:每一项检查均可明确判定“通过”或“失败”
-
兼容主流生产级脚手架:原生适配 Claude Code、Kilo、Droid 等真实开发环境
-
内置指令冲突识别机制:检验智能体对矛盾指令的识别与协调能力
数据集构成
本次发布包含72 个精挑细选的真实任务实例:
-
任务说明:自然语言描述的用户请求(支持多轮上下文)
-
系统提示:针对特定脚手架定制的行为限制集合
-
评估检查清单:共计 2,422 条原子级二元判定项
-
Docker 镜像:开箱即用的完整运行环境(已发布至 Docker Hub)
-
脚手架配置文件:Claude Code / Kilo / Droid 三套环境配置
Docker 环境说明
全部评测任务均已封装为公开 Docker 镜像,托管于 Docker Hub 的 minimaxai/feedfeed 命名空间下。用户可直接拉取并进入任意环境进行调试与验证:
# 拉取指定环境镜像docker pull minimaxai/feedfeed:<tag># 启动容器并交互式进入docker run -it --rm minimaxai/feedfeed:<tag> /bin/bash</tag></tag>
更多详情请访问:https://www./link/6dca0fba2a2b3ec808b388ea6cb8814b
源码获取地址:点击下载
相关推荐:
GPT4.0官网下载:打开智能创作新篇章,忆ai
【收藏】分享10个普通人可以操作的有效引流方法
Chat3.5免费版登录入口:让AI助手成为你生活的一部分,罐体ai
摘要AI生成:高效工作的新时代利器
如何用AI改文章,让写作更高效、精准,提升内容质量
社区论坛引流的5个小技巧,助你高效引流!
SEO与SEM推广:如何用互联网营销提升品牌曝光与业绩
SEO付费推广:企业实现高效网络营销的新选择
ChatGPT崩了?这一事件背后隐藏的深刻影响与启示
SEO优化排名软件:助力企业突破互联网竞争壁垒,快速提升网站排名
怎样利用AI写文章,轻松提升写作效率
狗屁不通文章生成器在线使用:轻松搞定内容创作,省时省力,ai动作音乐
文章续写AI:提升写作效率,创意无限
推广赚钱被动躺赚玩法介绍
SEO客服:如何提升客户体验与业务转化的双赢策略,鄂州网站建设公司教程
ChatGPT崩了?用户称打开是一片空白,背后隐藏了什么?,ai智能写作助手华为
AI写文章查重率高吗?揭秘人工智能写作的奥秘
正版ChatGPT官网中文版电脑版,智能聊天新体验,ai大猩猩跟ai香蕉打架
SEO网站的基本术语
蒙文章在线制作:轻松创建高质量文章,释放你的写作潜能,ai怎么设置默认颜色
SEO做站:提升网站排名的关键策略与技巧
SEO北京:数字时代,企业成功的关键,湖南网站建设湖南岚鸿
SEO做什么的?揭秘SEO背后的核心价值
ChatGPT手机下载后打不开?可能是这些问题导致的,解决方法在这里!,ai比赛高清
AI生成的文章会被判定抄袭吗?人工智能创作的版权与原创性问题,ai97076
用AI写文章会不会查重率高?破解写作困扰的真相
AI热门软件,未来科技的钥匙
广告联盟都是怎么分析和判断数据是不是作弊的?
SEO定价策略:如何根据企业需求定制最佳价格方案,教育培训抖音营销推广
免费畅享智能对话体验GPTChat免费帐号让你无限可能,ai导出高质量