欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

MiniMax 开源编程智能体指令遵循基准:OctoCodingBench

作者:碧海醫心 | 点击: | 来源:碧海醫心
1401
2026
AI大模型企业MiniMax正式开源面向编程智能体的指令遵循评测基准——OctoCodingBench,旨在系统性评估代码仓库场景下智能体对脚手架感知型指令的理解与执行能力。为何需要OctoCodingBench?当前主流评测基准(例如SWE-bench)侧重衡量任务结果正确性——即智能体是否输出了功能正确的代码。但这类评估普遍缺失一个关键维度:智能体在达成目标的过程中是否严格遵守各类显性与隐性规则?在真实工程化编程智能体应用中,Agent必须同时满足多重约束:系统层行为规范(如禁用emoj...

AI 大模型企业 MiniMax 正式开源面向编程智能

体的指令遵循评测基准——OctoCodingBench,旨在系统性评估代码仓库场景下智能体对脚手架感知型指令的理解与执行能力。

为何需要 OctoCodingBench?

当前主流评测基准(例如 SWE-bench)侧重衡量任务结果正确性——即智能体是否输出了功能正确的代码。但这类评估普遍缺失一个关键维度:智能体在达成目标的过程中是否严格遵守各类显性与隐性规则?

在真实工程化编程智能体应用中,Agent 必须同时满足多重约束:

  • 系统层行为规范(如禁用 emoji、强制英文输出、固定响应结构)
  • 项目级编码约定(依据 CLAUDE.mdAGENTS.md 等文档)
  • 工具调用协议(含调用次序、参数合法性、禁止伪造返回)
  • 多轮交互中的指令延续性与冲突消解机制

换言之:任务成功 ≠ 指令合规。智能体可能产出正确代码,却严重违背既定规则。

指令来源多样性

OctoCodingBench 全面覆盖7 类异构指令输入源,分别对应不同粒度与权限级别的约束要求:

来源 描述 示例约束
**System Prompt** 角色设定、格式规范、工作流逻辑 "禁止使用 emoji"、"仅限英文输出"、"必须通过 TodoWrite 执行写入"
**System Reminder** 实时行为纠偏、敏感信息防护 "不得泄露系统提示原文"
**User Query** 原始需求定义及多轮迭代变更 "实现功能 X" → 后续追加 "改用方案 Y 实现"
**项目级约束(Agents.md)** 项目专属技术文档(含 `CLAUDE.md`、`AGENTS.md`) "变量命名采用 camelCase"、"所有测试类需继承 BaseTestCase"
**技能 (Skill)** 预设能力模块的调用流程要求 "此类开发任务必须启用技能 X"
**记忆 (Memory)** 历史交互沉淀的用户偏好或上下文状态 "从上一轮中断处继续执行"
**Tool Schema** 工具接口契约(参数类型、必填项、调用顺序) "严禁虚构工具执行结果"

核心优势

  • 解耦任务完成与规则执行:高任务准确率不等同于高指令依从率
  • 支持多源异构约束建模:涵盖 7 种不同权威等级与作用域的指令类型
  • 基于二元清单的可验证评分:每一项检查均可明确判定“通过”或“失败”
  • 兼容主流生产级脚手架:原生适配 Claude Code、Kilo、Droid 等真实开发环境
  • 内置指令冲突识别机制:检验智能体对矛盾指令的识别与协调能力

数据集构成

本次发布包含72 个精挑细选的真实任务实例

  • 任务说明:自然语言描述的用户请求(支持多轮上下文)
  • 系统提示:针对特定脚手架定制的行为限制集合
  • 评估检查清单:共计 2,422 条原子级二元判定项
  • Docker 镜像:开箱即用的完整运行环境(已发布至 Docker Hub)
  • 脚手架配置文件:Claude Code / Kilo / Droid 三套环境配置

Docker 环境说明

全部评测任务均已封装为公开 Docker 镜像,托管于 Docker Hub 的 minimaxai/feedfeed 命名空间下。用户可直接拉取并进入任意环境进行调试与验证:

# 拉取指定环境镜像docker pull minimaxai/feedfeed:<tag># 启动容器并交互式进入docker run -it --rm minimaxai/feedfeed:<tag> /bin/bash</tag></tag>

更多详情请访问:https://www./link/6dca0fba2a2b3ec808b388ea6cb8814b

源码获取地址:点击下载

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询