Step 3.5 Flash – 阶跃星辰最新开源的基座模型
Step 3.5 Flash是什么
Step 3.5 Flash 是阶跃星辰最新开源的基座模型,专为 Agent 场景推出。模型采用稀疏 MoE 架构,总参数 1960 亿,每 token 仅激活 110 亿参数,兼顾性能与效率。Step 3.5 Flash推理速度高达 350 TPS,支持 256K 长上下文,在数学推理、代码生成(SWE-bench 74.4%)和 Agent 任务上媲美顶级闭源模型。Step 3.5 Flash已开源并支持 vLLM、SGLang、llama.cpp 等框架,可在 Mac Studio M4 Max、NVIDIA DGX Spark 等消费级硬件本地部署,实现数据隐私与高性能兼得。

Step 3.5 Flash的主要功能
- 高速推理:模型通过 MTP-3 技术实现最高 350 TPS 的生成速度,支持复杂多步推理的即时响应。
- Agent 能力:模型专为智能体任务设计,在 SWE-bench Verified 达到 74.4%,可处理长链条复杂任务。
- 高效长文本:支持 256K 上下文窗口,采用混合注意力机制降低长文本计算开销。
- 本地部署:优化消费级硬件支持,可在 Mac Studio M4 Max、NVIDIA DGX Spark 等设备流畅运行。
- 代码生成:模型具备强大的编程能力,支持自动工具调用和结构化推理输出。
Step 3.5 Flash的技术原理
稀疏 MoE 架构:模型采用 45 层 Transformer 骨干网络,每层配置 288 个细粒度路由专家和 1 个共享专家。推理时仅激活 Top-8 专家,每 token 实际计算约 110 亿参数,实现 1960 亿总参数规模的模型能力与小模型推理成本的平衡。
MTP-3 多 Token 预测:通过滑动窗口注意力机制与密集前馈网络组成的专用预测头,单次前向传播并行生成 4 个 token。将典型场景生成速度提升至 100-300 tok/s,峰值可达 350 tok/s,显著降低解码延迟。
混合注意力机制:采用 3:1 滑动窗口注意力与全局注意力层交替的架构设计。滑动窗口层聚焦局部上下文,全局层捕捉长距离依赖,在 256K 长文本场景下有效控制计算复杂度,兼顾效率与性能。
推理优化策略:模型支持专家并行(EP8)与张量并行(TP8)的组合部署,配合 FP8 量化降低显存带宽压力。通过投机解码与 MTP 协同,在 Hopper GPU 上实现高效服务化部署。
Step 3.5 Flash的项目地址
GitHub仓库:https://github.com/stepfun-ai/Step-3.5-Flash/
HuggingFace模型库:https://huggingface.co/stepfun-ai/Step-3.5-Flash
Step 3.5 Flash的应用场景
智能编程开发:作为 Claude Code、Codex 等工具的底层模型,提供代码生成、自动调试、软件工程任务处理等能力,在 SWE-bench Verified 上达到 74.4% 的通过率。
自主智能体执行:适用深度研究、网页信息检索、跨平台数据对比等需要长链条推理的 Agent 场景。
实时对话交互:凭借 100-350 TPS 的生成速度,支撑低延迟聊天机器人、在线教育辅导、智能客服等需要即时响应的交互应用。
长文本分析处理:可进行学术论文研读、法律合同审查、大型代码库理解,高效提取并整合海量信息。
端侧隐私计算:可在 Mac Studio M4 Max、NVIDIA DGX Spark 等本地设备部署,满足金融、医疗、企业办公等敏感数据的私有化处理需求。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675







小小酸奶昔
