BAILU-APEX：面向本地部署的稠密代码模型

本地时代需要怎样的代码模型？

过去两年，顶级代码大模型一路扩容：数百亿到数千亿参数、超长上下文、复杂代理能力……但大多数能力都封装在云端 API 里。对于需要完全离线、内网隔离、可审计 的团队来说，这些云端模型往往意味着：

无法满足数据主权与合规要求
动辄数百万到上千万的 GPU 集群预算
复杂的多机部署与高昂的运维成本

白鹿·龙腾（BAILU-APEX）系列的设计目标非常明确：把一线代码模型真正装进您的机房，甚至是自己的主机里。在整个白鹿模型家族中，我们同时布局了大规模 MoE 稀疏模型与高效稠密模型，而 APEX 系列刻意选择后者：坚持高质量稠密架构，配合精心打磨的训练数据与推理栈，让更小模型完成大事情。

模型家族概览：25B 与 120B 双版本

BAILU-APEX 系列当前包含两个核心成员，均为支持长上下文的稠密 Transformer 编码–解码架构，面向代码理解与软件工程自动化场景深度优化：

BAILU-APEX 25B：约 250 亿参数，支持最长 256K token 上下文，重点优化本地开发体验与单机推理效率，是多数团队首选的本地部署版本。
BAILU-APEX 120B：约 1200 亿参数，完整保留推理能力与复杂代理行为，在大型代码基地、跨服务重构与系统级迁移任务上表现更佳。

在白鹿内部与受邀企业的第三方评测中：

BAILU-APEX 25B 在 SWE-Bench Verified 等真实软件工程基准上的通过率对齐 GLM-4.6 级别代码模型，在多个数据集上略有领先。
BAILU-APEX 120B 在同一基准上进一步提升，通过率逼近封闭商用模型上限，用不到传统「超大模型」的参数量，完成同等级别代码任务。

两款模型均支持自托管部署和按需微调，既可以作为 IDE 内置助手，也可以作为后端代码代理服务，接入 CI/CD、Issue 系统与知识库。

BAILU-APEX 25B 与 120B 均采用 BF16 与 F8_E4M3 精度混合方案，在推理阶段针对特定场景引入高效的 F8_E4M3 量化，显著降低了内存和算力消耗。即便在不支持 FP8 的消费级显卡上，也能顺利部署，大大降低企业和团队的自托管门槛。

极低硬件门槛：真正适合本地与边缘环境

相比动辄需要 8 × A100 的超大模型，BAILU-APEX 更关注「大多数团队真正拥有的硬件」。在结合 BailuLLM 推理栈与量化方案后，我们推荐的典型部署配置如下：

BAILU-APEX 25B：单机即可承载的主力模型

开发者工作站形态：1-2 × RTX 4090 / 5090（24GB）消费级显卡即可运行，在桌面级环境完成大部分代码任务，并保持 256k 的长上下文。
企业小型服务器：1 × 80GB GPU 即可支撑团队共享服务。
CPU-only 形态：在没有独立 GPU 的场景下，可在 32 核以上 x86 服务器上部署低并发推理，适合合规审计、离线代码走查等对实时性要求不高的任务。
解码推荐：自动修复、重构这类确定性较强的任务建议温度 0.1–0.2；交互式编程和创意代码生成场景可提升到 0.3–0.4.

BAILU-APEX 120B：为代码平台与大型团队准备

数据中心级部署：模型针对 A100、H100 等数据中心级 GPU 进行了优化，推荐至少 4 × 80GB 级 GPU 或等效国产算力卡；在 8 卡配置下可以获得更平滑的尾延迟和更高并发。
典型场景：大规模代码仓扫描、遗留系统现代化改造、多语言迁移、自动化修复与回归验证。
标准化交付：提供容器化部署模板与推理服务，方便集成到现有 CI/CD 或平台工程体系中。

得益于稠密模型+高效实现的组合，很多原本只有云端闭源模型才能完成的任务，如 跨仓库重构、自动生成端到端测试、复杂 CI 脚本修复，现在可以在企业内网里，用有限的算力在离线环境稳定完成任务。

代码能力与真实任务表现

单轮补全分数已经不足以衡量一个代码模型。BAILU-APEX 从一开始就按「代码代理」而不是「自动补全」来设计：理解整个仓库、读 Issue、调用工具、修改多文件、回滚与重试。

在 SWE-Bench Verified 等实际开源项目缺陷修复基准上，我们关注的是「独立完成一个真实任务的成功率」，而不是在合成题目上的 BLEU 或通过率。基于公开评测与内部 Cline / Claude Code 工作流的结果，我们可以用下图概括 BAILU-APEX 在开源模型中的位置：

SWE-Bench Verified 代码任务通过率

BAILU-APEX 120B

≈ 72%

BAILU-APEX 25B

≈ 68%

GLM-4.6 Code

≈ 68%

MiniMax M2

≈ 69%

Qwen3 Coder Plus

≈ 70%

DeepSeek V3.2

≈ 73%

Kimi K2 Thinking

≈ 71%

GPT 代码模型

≈ 78%

Claude Sonnet 4.5

≈ 77%

Qwen3 Coder Flash

≈ 55%

CWM

≈ 54%

图 1：基于公开的 SWE-Bench Verified 结果和白鹿内部复现，BAILU-APEX 25B / 120B 与 GLM-4.6、MiniMax M2、Qwen3 Coder Plus 等主流开源代码模型处于同一性能带，略低于 DeepSeek V3.2、Kimi K2 Thinking 等上千亿参数模型，同时显著领先 Qwen3 Coder Flash、CWM 等轻量模型。

参数规模 vs. 实际效果

模型	参数规模	大致定位
BAILU-APEX 25B 本地优选	25B 稠密	以单机 / 小型服务器部署为目标，在 25B 体量下完成 70B 级模型的代码任务。
BAILU-APEX 120B	120B 稠密	在复杂代理、多仓重构和系统级迁移任务上逼近封闭商用模型效果。
GLM-4.6 Code	数百 B 级 MoE（官方未公布精确值）	作为开源代码模型标杆之一，在 SWE-Bench Verified 上与 BAILU-APEX 25B 处于同一水平。
MiniMax M2	≈ 230B 总参数 / 10B 激活 MoE	以约 230B 总参数、10B 激活的 MoE 结构，在代码任务上略高于 GLM-4.6，属于中高参数量、云端优先的模型。
Qwen3 Coder Plus	≈ 480B 总参数 / 35B 激活 MoE	基于 Qwen3 Coder 480B A35B 的专有版本，约 480B 总参数、35B 激活，更偏向在线代码代理与工具调用。
DeepSeek V3.2	≈ 685B 参数 MoE	公开资料中被描述为约 685B 规模的 MoE 模型，以极大参数规模追求最高分段，在数据中心环境中运行成本显著高于稠密 100B 级模型。
Kimi K2 Thinking	≈ 1T 总参数 / 32B 激活 MoE	基于约 1T 参数、32B 激活的 MoE 架构，长思考与复杂推理能力突出，更适合作为云端推理服务而非本地部署。
Qwen3 Coder Flash	30.5B 总参数 / 3.3B 激活 MoE	30.5B 参数、3.3B 激活的轻量 MoE 代码模型，强调响应速度，适合作为通用代码助手，但在复杂 SWE-Bench 任务上分数较低。
CWM	32B 稠密	Meta FAIR 发布的 32B 稠密开源代码模型，以综合语言与代码任务为主，对专业代码代理场景的优化程度不及专门的代码模型。
Claude Sonnet 4.5	数百 B 级闭源模型（官方未披露）	在人工评测与官方报告中长期作为代码任务上的闭源上限之一，本图中作为性能上界的对比点。
GPT 代码模型	数百 B 级闭源模型（官方未披露）	面向代码与工具调用深度优化的闭源模型，在 SWE-Bench 上略高于 Claude，同样主要以云端服务形式提供。

图 2：在完整的模型谱系中，BAILU-APEX 25B / 120B 刻意选择「可本地部署」的参数区间，与数百 B 级 MoE 或上千亿参数模型拉开成本差距，同时保持在 SWE-Bench 等真实代码任务中的第一梯队表现。

从公开的 SWE-Bench Verified 结果来看，BAILU-APEX 120B 所在的性能带与 MiniMax M2、Qwen3 Coder Plus 等开源代码模型相当，略低于 DeepSeek V3.2、Kimi K2 Thinking 这类以极大参数规模换取极致分数的模型；BAILU-APEX 25B 则与 GLM-4.6 处在同一 68% 左右区间。

图中的其他模型也勾勒出整个代码模型谱系：Qwen3 Coder Flash 与 CWM 等轻量模型在 50%–55% 区间内提供更偏日常助手的体验，而 DeepSeek V3.2、Kimi K2 Thinking 这类上千亿参数模型则冲击最高分段。BAILU-APEX 试图站在它们之间：在保持 70%+ 真实任务通过率的同时，把参数规模和部署成本压缩到中小团队可以承受的范围。

面向本地与内网的安全设计

BAILU-APEX 并不是把云端模型「硬搬」到本地，而是在训练与推理阶段都围绕本地部署场景做了系统性设计：

默认离线友好：模型在强化学习阶段即针对「无联网工具」的场景进行了大量训练，能够在纯本地环境下完成依赖追踪、测试生成、日志分析等任务。
可审计推理日志：推理服务输出可选的结构化事件流（调用了哪些文件、尝试了哪些修改），方便在合规要求较高的行业进行审计与追踪。
细粒度权限隔离：在与 CI/CD、Git 仓库、生产环境交互时，建议通过 BailuLLM 推理框架或自研代理，将「可读范围」「可写路径」「可执行命令」显式配置，模型只在白名单内行动。
与白鹿安全体系对齐：BAILU-APEX 继承了白鹿在数据审核、宪法式对齐和 API 层实时安全检测中的经验，即便在本地部署形态下，也能配合网关与审计组件构建多层防护。

对于金融、政务、运营商、能源等对数据流向极度敏感的行业，这意味着可以在完全封闭的网络中，享受到与云端相近的代码能力，而不必把源代码与日志交给任何第三方。

典型工作流：从个人开发者到企业级代码平台

我们希望 BAILU-APEX 成为企业内部各类开发应用背后的通用模型：既为企业内部的 IDE 应用提供编码与上下文感知补全，也为安全与合规团队提供代码审计、变更追踪与风险识别能力，同时在测试平台与质量看板中，承担核心推理与评估引擎的角色。

为此，我们在训练与强化阶段系统性加入了贴近真实生产环境的大量案例，尤其是缺乏外部知识库、只能依赖代码仓与运行信号的场景，让模型学会在信息不完备的条件下梳理依赖、构建全局视图并给出稳健决策，从设计之初就对齐企业内部的集成方式与合规约束。

1. 个人/小团队：本地 IDE 智能结对

对于个人开发者和小团队来说，只需要一台配备单张消费级 GPU 的工作站，即可在本地部署 BAILU-APEX 25B，并通过 OpenAI 兼容协议接入 VS Code、JetBrains、Neovim，以及支持自定义后端的 Claude Code、Cline 等 IDE 代理环境。模型被暴露为统一的本地推理端点，既可以做补全，也可以作为「对话式改代码」的后端大脑。

实际使用中，开发者在 IDE 里自然发起对话：请模型阅读当前文件和相关调用栈，给出重构建议，生成或修补单元测试，解释报错日志，并在需要时直接给出可执行的补丁。整个过程从生成补丁到运行测试、回滚变更，都可以在本地完成，无需任何云端 API 参与。

对于含有敏感逻辑的仓库（例如安全组件、国密算法实现或未公开协议栈），同样的工作流可以在完全断网的环境中运行，确保源代码、运行日志与临时数据都不离开开发机或本地机房。在此基础上，团队可以基于 BAILU-APEX 构建内部 RAG 库：将项目 README、开发手册、API 文档和经典故障案例编码成向量索引，由模型在回答问题或生成代码前先检索相关片段，用检索结果约束生成，实现一个可落地、可维护的离线知识增强开发环境。

2. 中型团队：内网代码代理服务

当团队规模扩大到几十人以上时，更常见的做法是在机房中部署一台或数台配备 2–4 张 GPU 的服务器，集中承载 BAILU-APEX 25B 推理服务，并通过内网域名向 IDE、CI/CD、机器人账号等统一暴露 API。开发者在本地使用 VS Code、Claude Code、Cline 等工具时，请求会经由网关路由到内网的 APEX 服务，而不是外部云端模型。

围绕这套服务，团队可以搭建一整套「代码代理」工作流：GitLab/Gitea Issue 中的缺陷单会被自动抓取并交给模型生成修复方案，CI 流水线在测试失败时自动调用模型定位问题、补全测试或生成变更说明。与此同时，可以基于 BAILU-APEX 在内网搭建统一的 RAG 服务，把内部 Wiki、接口规范、架构设计文档和运维 Runbook 编入向量库，由模型先检索相关知识，再在此基础上生成补丁、评审意见或运维建议，保证所有知识和上下文都停留在企业网络内部。

权限侧可以与现有的身份与访问控制体系打通：不同项目、不同环境对应不同的可读/可写仓库集、可访问日志源和可执行命令白名单。例如，生产环境代理只被允许读取日志和只读代码仓，而开发环境代理才有权限推送修复分支，从架构上降低误操作和权限滥用的风险。

3. 大型企业：120B + 25B 的分层协同

在集团级或跨业务线的场景中，BAILU-APEX 120B 往往被用作「规划者」——负责处理大型系统迁移、跨语言重写、复杂架构评审以及跨多个业务域的演进方案设计。它会在接入统一的内部 RAG 库后，读取跨系统的需求文档、架构蓝图和历史变更记录，给出自顶向下的改造计划和技术路线。

BAILU-APEX 25B 则更像「执行者」：根据 120B 产出的方案，在多个代码仓之间分步落地具体改动，生成 PR、补充回归测试，并在 CI 中自动运行用例、收集日志、根据失败情况迭代补丁。调度层会把两个模型与内部代码托管平台、流水线系统、监控告警和知识库编排到同一条自动化链路中，让 RAG 负责查文档与历史变更，120B 负责编排与决策，25B 负责高频执行，在控制成本的前提下，把原本需要大型项目组手工推进的长期工程工作，变成可以持续运行的智能流水线。

如何在 25B 与 120B 之间做选择？

很多团队最关心的问题是：「我到底需不需要 120B？」我们建议从以下几个维度评估：

是否必须单机部署？ 如果主要运行环境是单台工作站或轻量服务器，希望尽可能少的 GPU，优先选择 BAILU-APEX 25B。
任务复杂度与覆盖面：如果主要是日常开发、代码评审、测试生成等，不涉及大规模系统迁移，25B 已经足够；只有在需要大规模跨服务重构、难题攻关时，120B 的收益才会显著。
并发与时延要求：同等硬件下，25B 的 QPS 与尾延迟表现更好，适合作为内网通用代码服务；120B 更适合作为「高价值任务」的专用引擎。
预算与能耗：在 3 年 TCO（硬件+运维+电力）维度，单集群只部署 25B 往往是性价比最高的方案；引入 120B 更适合已有高端算力、希望进一步榨干算力价值的大型组织。

一个现实的折中是：用 BAILU-APEX 25B 覆盖 80% 的日常需求，再为剩下 20% 的高难度任务预留 120B 集群。在同一推理框架下，两者可以通过路由策略透明切换，对上游业务基本无感。

结语：把顶级代码模型带回本地

白鹿·龙腾并不是又一个「更大、更贵」的模型，而是一套面向现实约束设计的代码系统：用稠密模型与高质量数据，把参数控制在可部署的范围内，把能力做进看得见的 GPU 与机房。

对于希望在本地、在内网、在自有硬件上构建 AI 研发平台的团队来说，BAILU-APEX 25B 与 120B 提供了两种清晰的选择：一个贴身的本地开发伙伴，一个面向复杂系统演进的旗舰引擎。我们也会在未来持续发布更多针对特定语言、特定行业优化的变体，与白鹿现有的安全、伦理与部署体系一起，支撑下一代可信软件工程自动化。

在代码模型之上，围绕 BAILU-APEX 也可以衍生出完整的多模态与文档 AI 体系：

音频方向：
模型能够直接接收语音输入，支持聊天、协作讨论等场景，并内置高效的语音转写服务。在“Audio with Instruction Following”范式下，既可以根据用户指令发起对话，也能完成音乐片段理解、说话人比较等多样化任务。

视觉方向：
支持对界面截图、架构图、数据面板等图像的理解。模型能将视觉线索与文本上下文结合，不仅仅局限于文本生成，还可以辅助决策和分析，提高多模态任务处理能力。

文档方向：
文档 AI 形态集成了先进的 OCR 识别与结构化数据抽取技术，可用于合同、报表、技术规范等企业级文档的批量处理。无论本地还是内网环境，都能以更高的速度与准确率、更可控的成本，支撑从代码到文档的全流程智能化工作流。