你的位置:成人充了钱后悔了能退吗王者 > 新闻动态 > >字节突然开源Seed-OSS,512K上下文碾压主流4倍长度!推理能力刷新纪录
热点资讯
新闻动态

字节突然开源Seed-OSS,512K上下文碾压主流4倍长度!推理能力刷新纪录

发布日期:2025-08-30 17:37    点击次数:172

字节跳动突发开源大模型,一出手就是360 亿参数的 Seed-OSS-36B。

这个 Seed-OSS 的命名方式,明显是在呼应 OpenAI 此前发布的 GPT-OSS 系列。

与 OpenAI 的开源策略也是一样,并没有直接开源核心商业模型豆包(Doubao),而是基于内部技术打造了一个专门面向开源社区的版本。

字节跳动 Seed 团队正式在 Hugging Face 和 GitHub 上发布了这个系列模型,采用 Apache-2.0 开源协议,可以免费用于学术研究和商业部署。

512K 上下文窗口,还能灵活控制思考预算

要说 Seed-OSS 最让人眼前一亮的特性,那必须是原生 512K 的超长上下文。

目前主流的开源模型,比如 DeepSeek V3.1 的上下文窗口是 128K,而 Seed-OSS 直接翻了 4 倍。

而且这个 512K 是在预训练阶段就构建好的,不是后期通过插值等方法硬撑上去的。

这意味着法律文档审查、长篇报告分析、复杂代码库理解等需要处理海量信息的专业场景,Seed-OSS 都能轻松拿下。

此外,Seed-OSS 还引入了"思考预算"(Thinking Budget)机制。

通过设定一个 token 数量,你就能控制模型思考的深度。比如你设置 512 个 token 的预算,模型在推理过程中会这样工作:

复制

好的,让我一步步来解决这个问题。题目说的是… 我已经使用了 129 个 token,还剩 383 个 token 可用。 使用幂法则,我们可以… 我已经使用了 258 个 token,还剩 254 个 token 可用。 另外,记住… 我已经耗尽了 token 预算,现在开始给出答案。

对于简单任务,可以设置较小的预算让模型快速响应;对于复杂的数学推理或代码生成,你可以给更多预算让它深思熟虑。

字节跳动建议使用 512 的整数倍(比如 512、1K、2K、4K、8K 或 16K),因为模型在这些区间上经过了大量训练。

模型架构方面,Seed-OSS 采用了成熟稳定的设计:

360 亿参数的稠密模型(不是 MoE),使用了 RoPE 位置编码、GQA 注意力机制、RMSNorm 归一化和 SwiGLU 激活函数。整个模型有 64 层,隐藏层维度 5120,词汇表大小 155K。

考虑到合成指令数据可能影响后训练研究,字节 Seed 团队提供了两个版本的基座模型,

一个包含合成指令数据(性能更强),一个不包含(更纯净),为研究社区提供更多选择。

多项基准测试开源 SOTA

那么这个模型的实际表现如何呢?

在知识理解方面,Seed-OSS-36B-Base 在 MMLU-Pro 上达到了 65.1 分,超过了同等规模的 Qwen2.5-32B-Base 的 58.5 分。在 TriviaQA 上更是拿下了 82.1 的高分。

推理能力的 BBH 基准测试得分 87.7,直接刷新了开源模型的记录。在数学能力上,GSM8K 达到 90.8 分,MATH 的 81.7 分。

Seed-OSS 代码能力同样不俗,HumanEval 得分 76.8,MBPP 达到 80.6。

指令微调版本 Seed-OSS-36B-Instruct 在 AIME24 数学竞赛题上达到了 91.7 分的成绩,仅次于 OpenAI 的 OSS-20B。

并且这些成绩是用仅 12T token 训练出来的,相比之下,很多同规模模型的训练数据量都在 15T 以上。

字节 Seed 团队的开源版图

字节 Seed 团队成立于 2023 年,定位是"打造业界最先进的 AI 基础模型",研究方向覆盖大语言模型、多模态、AI 基础设施等多个前沿领域。

过去一年多时间里,已经陆续开源了多个有影响力的项目,只不过多是细分领域模型,而不是受关注的基座语言模型。

今年 5 月,他们发布了Seed-Coder,一个 8B 规模的代码生成模型,最大的创新是让 LLM 自己管理和筛选训练数据,大幅提升了代码生成能力。

紧接着,他们又推出了 BAGEL,一个能同时处理文本、图像和视频的统一多模态模型,真正实现了"万物皆可输入输出"。

更早之前,他们还发布了 Seed Diffusion,这是一个基于离散状态扩散技术的实验性语言模型,在代码生成任务上实现了极高的推理速度。

为了支撑这些模型的训练,团队还开源了 VeOmni,一个 PyTorch 原生的全模态分布式训练框架。

最近他们还搞了个 Seed LiveInterpret 端到端的同声传译模型,不仅翻译准确率高,延迟低,还能复刻说话人的声音特征。

随着 Seed-OSS 的开源,国产开源 Base 模型又添一员猛将。

GitHub:

https://github.com/ByteDance-Seed/seed-oss

HuggingFace:

https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

� �  8 月 22 日本周五,下午 14 点,量子位 AI 沙龙邀请了RockFlow 创始人、CEO 赖蕴琦 Vakee,一同来聊AI Agent,怎么搞投资?

� �  欢迎线下参会!面对面交流 AI Agent、金融投资与 AI 创业   � �  

一键关注 � � 点亮星标

科技前沿进展每日见



上一篇:鑫宏业: 人形机器人领域是公司重点关注和积极探索的方向之一
下一篇:星巴克推10亿美元重组计划:关店并裁员900人,1.5亿美元用于员工离职补偿
友情链接: