酷应用

Step 3.5 Flash – 阶跃星辰最新开源的基座模型

动态来源：AI工具集 2026-02-03 10:58:24

Step 3.5 Flash是什么

Step 3.5 Flash 是阶跃星辰最新开源的基座模型，专为 Agent 场景推出。模型采用稀疏 MoE 架构，总参数 1960 亿，每 token 仅激活 110 亿参数，兼顾性能与效率。Step 3.5 Flash推理速度高达 350 TPS，支持 256K 长上下文，在数学推理、代码生成（SWE-bench 74.4%）和 Agent 任务上媲美顶级闭源模型。Step 3.5 Flash已开源并支持 vLLM、SGLang、llama.cpp 等框架，可在 Mac Studio M4 Max、NVIDIA DGX Spark 等消费级硬件本地部署，实现数据隐私与高性能兼得。

Step 3.5 Flash的主要功能

高速推理：模型通过 MTP-3 技术实现最高 350 TPS 的生成速度，支持复杂多步推理的即时响应。
Agent 能力：模型专为智能体任务设计，在 SWE-bench Verified 达到 74.4%，可处理长链条复杂任务。
高效长文本：支持 256K 上下文窗口，采用混合注意力机制降低长文本计算开销。
本地部署：优化消费级硬件支持，可在 Mac Studio M4 Max、NVIDIA DGX Spark 等设备流畅运行。
代码生成：模型具备强大的编程能力，支持自动工具调用和结构化推理输出。

Step 3.5 Flash的技术原理

稀疏 MoE 架构：模型采用 45 层 Transformer 骨干网络，每层配置 288 个细粒度路由专家和 1 个共享专家。推理时仅激活 Top-8 专家，每 token 实际计算约 110 亿参数，实现 1960 亿总参数规模的模型能力与小模型推理成本的平衡。
MTP-3 多 Token 预测：通过滑动窗口注意力机制与密集前馈网络组成的专用预测头，单次前向传播并行生成 4 个 token。将典型场景生成速度提升至 100-300 tok/s，峰值可达 350 tok/s，显著降低解码延迟。
混合注意力机制：采用 3:1 滑动窗口注意力与全局注意力层交替的架构设计。滑动窗口层聚焦局部上下文，全局层捕捉长距离依赖，在 256K 长文本场景下有效控制计算复杂度，兼顾效率与性能。
推理优化策略：模型支持专家并行（EP8）与张量并行（TP8）的组合部署，配合 FP8 量化降低显存带宽压力。通过投机解码与 MTP 协同，在 Hopper GPU 上实现高效服务化部署。

Step 3.5 Flash的项目地址

GitHub仓库：https://github.com/stepfun-ai/Step-3.5-Flash/
HuggingFace模型库：https://huggingface.co/stepfun-ai/Step-3.5-Flash

Step 3.5 Flash的应用场景

智能编程开发：作为 Claude Code、Codex 等工具的底层模型，提供代码生成、自动调试、软件工程任务处理等能力，在 SWE-bench Verified 上达到 74.4% 的通过率。
自主智能体执行：适用深度研究、网页信息检索、跨平台数据对比等需要长链条推理的 Agent 场景。
实时对话交互：凭借 100-350 TPS 的生成速度，支撑低延迟聊天机器人、在线教育辅导、智能客服等需要即时响应的交互应用。
长文本分析处理：可进行学术论文研读、法律合同审查、大型代码库理解，高效提取并整合海量信息。
端侧隐私计算：可在 Mac Studio M4 Max、NVIDIA DGX Spark 等本地设备部署，满足金融、医疗、企业办公等敏感数据的私有化处理需求。

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

*文章为作者独立观点，不代表爱尖刀立场

本文由小小酸奶昔发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/2b/master/486819.html

AI工具集 Step 3.5 Flash 阶跃星辰

图库