Overview

这篇文章只看 2026-01-01 到 2026-03-29 之间首次公开、且由厂商官方开源的基础模型或明确模型家族变体。整理时我只接受下面几类一手材料:

  • 官方技术博客 / 官方发布页
  • 官方技术报告 / arXiv / model card
  • 官方 GitHub / Hugging Face / ModelScope

如果某个字段没有被官方明确披露,我会直接写成 官方未披露,而不是用二手解读把空白补满。

还有一个边界需要先说明:2026 Q1 里不少 release 实际上是“同一架构的一组尺寸变体”或“旧家族在 2026 年发布的新 checkpoint”。为了让文章既尽量全,又能把 architecture 讲清楚,我采用下面的组织原则:

  • 同一轮 release、同一套核心架构、只是参数规模不同的,合并为一个模型家族目录,目录里列 variant。
  • 如果虽然同属一家厂商,但 block 结构、路由方式、模态连接器或者训练目标已经发生明显变化,就拆成单独目录。
  • 某些 2026 Q1 新变体的技术细节来自 2025 末先行公开的家族技术报告,这类条目我会明确标注“2026 发布的变体,架构说明引用家族官方报告”。

How To Read

文章分成三部分:

  1. LLM:以通用语言能力、编码、agent 推理为主的基础模型。少数模型虽然已经支持图像输入,但官方定位仍然是 general foundation model,我放在这一组。
  2. VLM:以视觉理解、文档理解、OCR、视觉问答为主的模型。
  3. Other Multimodal:音频、语音、图像生成 / 编辑、computer-use agent、原生离散多模态等不适合塞进前两组的模型。

每个模型目录都按同一个模板写:

  • Release & Open Sources
  • Architecture
  • Parameters & Hyperparameters
  • Training
  • Key Takeaways
  • Links

Scope Notes

  • GoogleTranslateGemma / MedGemma 属于官方开放权重但 gated access 的 release。官方文档能确认发布时间、模型尺寸和训练目标,但逐层 config 公开得不如其他模型完整,因此我会明确区分“继承 Gemma 主干的已知部分”和“本次 release 未重复公开的细节”。
  • IBM GraniteLongCat-Image 这类家族,有些核心架构论文首发早于 2026,但本文讨论的是 2026 Q1 新发布的官方开源 checkpoint / 变体

LLM

Xiaomi / 小米

MiMo-V2-Flash

MiMo-V2-Flash

Release & Open Sources

  • 发布时间:官方技术报告 arXiv:2601.02780,官方仓库在 2026 年 1 月公开。
  • 形态:decoder-only MoE LLM。
  • 官方开源入口:GitHub、Hugging Face、官方博客同时可用。

Architecture

  • MiMo-V2-Flash 是一个以高吞吐 agent 推理为目标的 MoE 语言模型。整体结构是 token embedding -> 48-layer transformer trunk -> MTP heads -> LM head
  • 主干 block 采用 pre-norm transformer。每层可以概括成:RMSNorm -> Hybrid Attention -> Residual -> RMSNorm -> MoE FFN -> Residual
  • attention 不是纯 full attention,而是官方强调的 Hybrid AttentionSliding Window AttentionGlobal Attention 交织使用,报告给出的比例是 SWA:GA = 5:1,window size 为 128。这使它把长上下文能力和 KV cache 成本一起优化。
  • MLP / expert 部分是稀疏 expert。根据官方 config,路由专家数 256,每 token 激活 top-8,激活函数是 SiLU
  • 模型还带了 Multi-Token Prediction 模块,用于更快推理和更高 RL rollout 效率。官方把它当成 M2.5 之外另一条很重要的效率支柱。

Parameters & Hyperparameters

  • 总参数 / 激活参数:309B total / 15B active
  • 层数 / hidden size:48 layers / 4096 hidden
  • attention heads:64 Q heads / 4 KV heads
  • FFN intermediate:16384
  • context:原生训练 32k,支持到 256k
  • 其他关键值:rope_theta = 5e6sliding_window = 128

Training

  • 预训练:官方给出 27T tokens,并明确提到 FP8 mixed precision 与长上下文训练。
  • 后训练:官方把 MOPD(multi-teacher on-policy distillation)和大规模 agentic RL 作为核心 recipe,对 coding、tool use、SWE-Bench 一类任务做强化。

Key Takeaways

  • MiMo-V2-Flash 最重要的不是参数总量,而是它把 Hybrid Attention + top-8 MoE + MTP + agentic RL 绑成了一套面向真实 agent throughput 的统一设计。

Links

Moonshot AI / 月之暗面

Kimi-K2.5

Kimi-K2.5

Release & Open Sources

  • 发布时间:2026-01-01
  • 形态:Moonshot 把它定义为 native multimodal agentic model,但在能力定位上仍然是通用基础模型,所以我放在 LLM 组里。
  • 官方开源入口:官方 blog、paper、GitHub、Hugging Face 全齐。

Architecture

  • 整体上是 MoonViT vision encoder + multimodal connector + Kimi text backbone。文本主干是一个超大规模 MoE decoder
  • 官方 config 显示其语言主干继承了 DeepSeek-V3 风格实现,采用 MLA(Multi-head Latent Attention)而不是传统 MHA/GQA。
  • 单个文本 block 可以概括成:RMSNorm -> MLA -> Residual -> RMSNorm -> MoE FFN -> Residual。激活函数为 SiLU
  • Expert routing 是稀疏路由:384 routed experts、1 shared expert、每 token 激活 8 experts。
  • K2.5 的官方模型卡同时明确了 vision tower 是 MoonViT,patch size 14,并把这部分视为原生视觉能力的一部分,而不是轻量外挂 projector。

Parameters & Hyperparameters

  • 总参数:官方模型卡给的是 1T total parameters
  • hidden / layers / heads:7168 hidden / 61 layers / 64 attention heads
  • context:256k
  • FFN / expert size:dense intermediate 18432,expert intermediate 2048
  • 视觉编码器:官方卡片写明 400M 量级 MoonViT

Training

  • 预训练:官方写明是在 Kimi-K2-Base 之上继续预训练,使用约 15T 混合视觉与文本 token。
  • 后训练:官方重点放在 visual reasoning、agentic tool use、instant / thinking 两种工作模式;公开文档没有把 SFT / RL token 量拆开。

Key Takeaways

  • K2.5 的关键不是“在文本 LLM 上补一个视觉编码器”,而是把 MLA MoE text trunk + MoonViT + agentic post-training 合成了一个原生多模态基础模型。

Links

Meituan / 美团

LongCat-Flash-Thinking-2601

LongCat-Flash-Thinking-2601

Release & Open Sources

  • 发布时间:2026-01-14
  • 形态:面向 agent reasoning 的 MoE 推理模型。
  • 官方来源:Hugging Face model card、官方 GitHub、技术报告 PDF。

Architecture

  • LongCat-Flash-Thinking-2601 是 LongCat 系列在 2026 Q1 的主力推理模型。总体结构是 decoder-only MoE
  • 每层的核心 block 由 MLA attention + MoE FFN 组成,仍是 pre-norm residual 组织。配置文件给出的关键特征包括 q_lora_rankkv_lora_rankattention_method = MLA,说明它把低秩 Q/KV 路径和 MLA 一起用了。
  • Expert routing 规模非常大:512 routed experts,每 token top-12。激活函数报告和实现都以 SiLU 为主。
  • 这一版最显著的是超长 context:通过 DeepSeek YaRN 风格的 rope scaling 把最大位置扩到接近 1M token。

Parameters & Hyperparameters

  • 官方 README 把它称为 560B 级 open-source MoE 模型。
  • config 可确认:6144 hidden64 attention heads512 expertstop-12983,040 max positions。
  • 其他关键值:rope_theta = 1e6q_lora_rank = 1536kv_lora_rank = 512

Training

  • 官方报告重点讲的是 environment scalingmulti-environment RL,说明其 post-training 明显偏向 agent / search / long-horizon reasoning。
  • 训练数据量官方没有在公开 README 中给出完整 token 数,只明确强调了多环境 RL。

Key Takeaways

  • 这类 LongCat Flash Thinking 模型的价值不只是参数更大,而是把 MLA + 大规模 MoE + 接近 1M context + 多环境 RL 组合成 agent-first 的推理模型。

Links

LongCat-Flash-Lite

LongCat-Flash-Lite

Release & Open Sources

  • 发布时间:2026-01-27
  • 形态:LongCat 的轻量 reasoning 模型。

Architecture

  • 依然是 decoder-only sparse model,但这条线的重点从“堆更大 MoE”转向 MoE + N-gram Embedding 的高效率设计。
  • block 仍然是 Norm -> MLA / attention -> Residual -> Norm -> sparse FFN -> Residual
  • 配置可确认:256 routed expertstop-123072 hidden32 heads
  • LongCat 官方在 README 里直接把它描述为“a better alternative to MoE scaling”的实验,说明这条线的重点在效率而不是极限尺寸。

Parameters & Hyperparameters

  • 3072 hidden / 14 layers / 32 heads
  • 256 experts / top-12
  • 327,680 context。
  • ngram_vocab_size_ratio = 78emb_neighbor_num = 4,这是 Lite 版最有辨识度的附加结构。

Training

  • 技术报告 arXiv:2601.21204 公开。
  • 公开材料强调 reasoning 和 scaling efficiency,但没有像 MiMo 那样公开完整预训练 token 数。

Key Takeaways

  • Flash-Lite 的意义在于:它不是简单缩小 LongCat-Flash-Thinking,而是尝试证明更聪明的 token / embedding 设计可以部分替代粗暴扩张的 MoE 尺寸。

Links

LongCat-Flash-Prover

LongCat-Flash-Prover

Release & Open Sources

  • 发布时间:2026-03-20
  • 形态:面向 Lean4 和 formal reasoning 的专用 open-source MoE 模型。

Architecture

  • 从 config 看,主干和 LongCat-Flash-Thinking-2601 非常接近:MLA + massive MoE + top-12 routing + long context
  • 区别主要不在 block 结构,而在后训练目标、工具集成方式和证明环境适配。
  • 因此它最适合被理解为一个“同主干、不同 RL / tool-use specialization”的推理变体。

Parameters & Hyperparameters

  • 官方 README 直接给出 560B 级 MoE。
  • config 与 Flash-Thinking 近似:6144 hidden64 heads512 experts983,040 context。

Training

  • 技术报告 arXiv:2603.21065 重点在 formal proving 的 tool-integrated reasoning
  • 官方公开材料没有把 pretraining 数据重新拆出,而是把重点放在 proving domain 的 post-training 和 agent scaffolding。

Key Takeaways

  • Flash-Prover 说明 2026 Q1 的一个明显趋势:开源厂商开始把“同一大主干 + 不同专业化后训练”做成独立 release,而不是只发布通用聊天模型。

Links

MiniMax

MiniMax-M2.5

MiniMax-M2.5

Release & Open Sources

  • 发布时间:2026-02-12
  • 官方来源:官网发布文、Forge RL 博客、GitHub、Hugging Face。

Architecture

  • MiniMax-M2.5 是典型的 decoder-only sparse model。整体结构是 token embedding -> 62 transformer layers -> 3 MTP modules -> LM head
  • 单层 block 为 RMSNorm -> attention -> Residual -> RMSNorm -> MoE FFN -> Residual
  • config 公开了几项很关键的细节:qk_norm_type = per_layer、routing scoring 使用 sigmoid、支持 MTP3MTP 模块。
  • Expert 路由是 256 local experts、每 token 激活 8 个专家;激活函数 SiLU
  • 官方 blog 没有像一些论文那样细讲 attention 变体,但从 config 看它不是传统 dense transformer 的简单放大,而是明显围绕高吞吐 inference 和 RL rollout 做过结构优化。

Parameters & Hyperparameters

  • config 可确认:62 layers / 3072 hidden / 48 heads / 8 KV heads
  • 256 experts / top-8
  • context 196,608
  • rope_theta = 5e6rotary_dim = 64,带 QK-NormMTP
  • 总参数和激活参数官方发布文没有在 README 顶部明确写出,公开材料更强调 RL 和成本,而非总参数营销。

Training

  • 官方 blog 明确说 M2.5 在 hundreds of thousands of complex real-world environments 上做了大规模 RL。
  • 次日公开的 Forge 博客补充了训练系统:最长 200k context、日吞吐 millions of samples、支持上万级 agent scaffold / environment 变化。
  • 预训练数据量官方未在公开页面单独披露。

Key Takeaways

  • M2.5 的公开重点不在“block 发明”本身,而在 MTP + sparse backbone + large-scale agent-native RL infrastructure 的组合,这也是它和很多仅做指令微调的开源模型最不一样的地方。

Links

Qwen / 通义千问

Qwen3-Coder-Next

Qwen3-Coder-Next

Release & Open Sources

  • 发布时间:2026-01-30
  • 形态:面向 coding agent 的专门模型。

Architecture

  • 这不是普通 transformer 微调版,而是 Qwen 在 2026 Q1 最有辨识度的一条新结构线。
  • 官方模型卡把隐藏布局直接写出来了:12 × (3 × (Gated DeltaNet -> MoE) -> 1 × (Gated Attention -> MoE))
  • 换句话说,它把 linear attention / DeltaNet 作为主路,由周期性 Gated Attention 补足全局建模;每个子层后面接稀疏 expert,而不是普通 dense MLP。
  • Expert 路由:512 experts、每 token 激活 10 个,另有 1 个 shared expert;激活函数 SiLU
  • 这是 2026 Q1 开源模型里把 “混合线性注意力 + MoE” 讲得最清楚的一条。

Parameters & Hyperparameters

  • 80B total / 3B activated
  • 48 layers / 2048 hidden
  • 16 Q heads / 2 KV heads
  • 262,144 native context。
  • head_dim = 256partial_rotary_factor = 0.25

Training

  • 官方模型卡把训练阶段写成 Pretraining & Post-training,并强调 long-horizon reasoning、tool use、failure recovery。
  • 公开材料没有像 MiMo 那样给出完整 token 数,但明确定位于 coding agent 与本地 IDE / CLI 集成。

Key Takeaways

  • Qwen3-Coder-Next 是 2026 Q1 最值得单独看 block 结构的开源代码模型之一,因为它不是传统 full-attention transformer 的简单增量版。

Links

Qwen3.5 Dense Family

Qwen3.5 Dense

Release & Open Sources

  • 发布时间:2026-02-24 起分批公开。
  • 代表 checkpoint:0.8B / 2B / 4B / 9B / 27B

Architecture

  • Qwen3.5 虽然官方定位是统一 foundation model,但在结构上已经和传统 “纯 full attention + FFN” 相当不同。
  • Dense 线的隐藏布局由官方直接公开:以 27B 为例,16 × (3 × (Gated DeltaNet -> FFN) -> 1 × (Gated Attention -> FFN))
  • 因此它的主 block 不是“每层都 full attention”,而是 3 个 linear / DeltaNet 层 + 1 个 gated full attention 层 的周期结构。
  • 这条线同时已经是原生 vision-language:视觉塔与文本主干在统一 token 空间里做 early fusion。
  • 激活函数 SiLU,visual tower 的激活为 gelu_pytorch_tanh

Parameters & Hyperparameters

  • 27B 为例:64 layers / 5120 hidden / 24 Q heads / 4 KV heads
  • dense FFN intermediate:17408
  • context:原生 262,144,官方 blog 标注可扩到约 1.01M
  • 视觉塔:27 层、1152 hiddenpatch 16

Training

  • 官方明确写出是 Pre-training & Post-training
  • 重点不再只是语言数据,而是 Early fusion multimodal tokens + million-agent RL infrastructure + 201 languages and dialects
  • 具体 token 数官方 release 未披露。

Key Takeaways

  • Qwen3.5 Dense 的意义在于:阿里把 hybrid linear/full attentionnative multimodal fusion 和大规模 agent RL 合并进了通用 foundation model 主线。

Links

Qwen3.5 MoE Family

Qwen3.5 MoE

Release & Open Sources

  • 发布时间:2026-02-24 起分批公开。
  • 代表 checkpoint:35B-A3B / 122B-A10B / 397B-A17B

Architecture

  • MoE 线延续 Qwen3.5 的 3 × Gated DeltaNet + 1 × Gated Attention 周期结构,但 FFN 被稀疏 experts 替代。
  • 35B-A3B 为例,官方写的是 10 × (3 × (Gated DeltaNet -> MoE) -> 1 × (Gated Attention -> MoE))
  • config 可确认:256 experts、每 token 激活 8 个;视觉塔与 dense 线共用同一代视觉 backbone。
  • 这让 Qwen3.5 MoE 既保留 hybrid attention 的效率,又把激活参数压低到更适合部署的范围。

Parameters & Hyperparameters

  • 35B total / 3B active 是最容易本地部署的代表。
  • 其 config:40 layers / 2048 hidden / 16 Q heads / 2 KV heads / 256 experts / top-8
  • context 同样是 262,144 原生。

Training

  • 与 Dense 线同属 Qwen3.5 统一 recipe:multimodal pretraining + large-scale RL + multilingual expansion。
  • 公开 release 没把各尺寸 token 预算拆开。

Key Takeaways

  • Qwen3.5 MoE 更像是“把 Qwen3-Coder-Next 那套 hybrid sparse 思路推向通用 foundation model”,而不是简单做一个 MoE 版 Qwen。

Links

Z.ai / 智谱

GLM-5

GLM-5

Release & Open Sources

  • 发布时间:2026-02-11
  • 官方来源:技术博客、paper、GitHub、Hugging Face。

Architecture

  • GLM-5 是典型的超大 MoE LLM,但它的关键创新点不是“多几个 experts”,而是把 DSA(DeepSeek Sparse Attention)也整合进来了。
  • 每个 block 可概括为:RMSNorm -> DSA/attention -> Residual -> RMSNorm -> MoE FFN -> Residual
  • config 明确出现了 model_type = glm_moe_dsanum_nextn_predict_layers = 1,说明它同时用了稀疏注意力和 MTP/next-token draft
  • Expert routing:256 routed experts + 1 shared expert,每 token 激活 8 个,routing 使用 sigmoid 风格 noaux top-k。

Parameters & Hyperparameters

  • 官方博客给出:从 GLM-4.7355B (32B active) 扩到 744B (40B active)
  • config:78 layers / 6144 hidden / 64 heads / 256 experts / top-8 / 202,752 context
  • 另外有 q_lora_rank = 2048kv_lora_rank = 512qk_head_dim = 256rope_theta = 1e6

Training

  • 预训练:官方 blog 明确写了从 23T 增加到 28.5T tokens
  • 后训练:重点在大规模 RL,且官方直接把训练基础设施 slime 开源出来,强调 asynchronous RL 提高吞吐与迭代速度。

Key Takeaways

  • GLM-5 的价值在于它把 超大 MoE + sparse attention + async RL infra + long-horizon agent tasks 这几条线一起推到了新的开源上限。

Links

Google

TranslateGemma

TranslateGemma

Release & Open Sources

  • 发布时间:2026-01-12
  • 家族尺寸:4B / 12B / 27B
  • 这是官方开放权重但 gated access 的发布。

Architecture

  • TranslateGemma 的 2026 release 不是一条全新 backbone,而是在 Gemma 主干上做专门的 translation post-training。
  • 因此 block 结构基本继承 Gemma decoder 架构;TranslateGemma 本次 release 主要公开的是任务目标和训练 recipe,而不是重新定义 attention / MLP block。
  • 从官方文档能确认的是:这是 text-only translation family,不是独立的 multimodal backbone。
  • 逐层 hidden size / heads / activation 在 gated 文档外没有像其他模型卡那样完全公开,所以这里不做无来源补写。

Parameters & Hyperparameters

  • 公开确认的家族尺寸:4B / 12B / 27B
  • 更细的逐层 config 依赖 gated 模型页;公开 blog / paper 没有完整重复。

Training

  • 官方论文把重点放在高质量翻译的 teacher-student / RL / reward 建模 recipe,而不是 backbone 变化。
  • 公开 release 强调 instruction-tuned translation、对多语种和高资源 / 低资源场景的泛化。

Key Takeaways

  • TranslateGemma 代表的是 2026 Q1 一个很值得注意的方向:大型开源厂商不只发“通用聊天模型”,也开始发有明确应用目标的专门家族。

Links

Mistral AI

Mistral Small 4 119B

Mistral Small 4

Release & Open Sources

  • 发布时间:2026-01-23
  • 形态:Mistral 把它定位成统一的 general / reasoning / dev model。

Architecture

  • 主干是一个多模态 MoE 模型:vision tower + projector + MoE text decoder
  • 单个文本 block 仍是标准 pre-norm decoder 结构,但 attention 侧已经使用 q_lora_rank / kv_lora_rank 风格参数化,并在 rope 上用了 YaRN 扩展。
  • Experts:128 routed experts + 1 shared expert,每 token 激活 4 个;激活函数 SiLU
  • multimodal projector 使用 GELU,说明视觉连接器与文本主干在非线性上是分开的。

Parameters & Hyperparameters

  • 119B total / 6.5B active
  • 36 layers / 4096 hidden / 32 heads / 32 KV heads
  • 256k context。
  • vision tower:1024 hiddenpatch 14

Training

  • 官方卡片强调这是一条 unified family,把 instruct、reasoning、devstral 三条线并起来。
  • 公开页面更突出多模态、reasoning mode、tool use,对 pretraining token 数没有单独披露。

Key Takeaways

  • Mistral Small 4 的要点在“统一工作模式”,不是单点 benchmark;它明显是在做一个既能快答也能切 reasoning mode 的工作模型。

Links

StepFun / 阶跃星辰

Step-3.5-Flash

Step-3.5-Flash

Release & Open Sources

  • 发布时间:2026-02-01
  • 官方来源:blog、arXiv、GitHub、HF、ModelScope。

Architecture

  • Step-3.5-Flash 是一条典型的高效率 MoE LLM,但 attention 排布并不简单。
  • 主体仍是 decoder-only。根据 config,它交替使用 full_attentionsliding_attention,sliding window 为 512
  • 每层 block 结构可以写成:Norm -> Attention(full/sliding, with QK-Norm) -> Residual -> Norm -> MoE -> Residual
  • Experts:288 experts、每 token top-8、router 激活是 sigmoid,还有 shared expert
  • 官方还明确把 MTP-3 作为 recipe 核心之一。

Parameters & Hyperparameters

  • 官方给出 196.81B total / ~11B active
  • 45 layers / 4096 hidden / 64 heads
  • 262,144 context。
  • rope 采用分层组合值,说明 attention pattern 和 position encoding 是联动设计的。

Training

  • 官方文档强调 frontier reasoning、agentic capabilities 与后续会继续开源 SFT / RL 代码。
  • 公开页面没有像 GLM-5 那样给出完整预训练 token 数。

Key Takeaways

  • Step-3.5-Flash 最值得注意的是它的“部署友好型大 MoE”思路:mixed attention pattern + QK norm + MTP-3 + top-8 routing

Links

NVIDIA

NVIDIA Nemotron-3 Super 120B-A12B

Nemotron-3 Super

Release & Open Sources

  • 发布时间:2026-03-10
  • 形态:NVIDIA 自己明确写成 LatentMoE - Mamba-2 + MoE + Attention hybrid with MTP

Architecture

  • 这是本文里结构最异质的一条 LLM 之一。它不是“纯 transformer”,而是 Mamba-2 / state-space + attention + latent MoE 的混合主干。
  • config 中的 hybrid_override_patternmtp_hybrid_override_pattern 说明主干在不同层交替使用 MambaAttention,并在末端加 MTP
  • block 粗略上可写成:Norm -> (Mamba or Attention) -> Residual -> Norm -> LatentMoE -> Residual
  • MLP 激活不是最常见的 SiLU/SwiGLU,而是公开成了 relu2,这是它很少见的一点。
  • Experts:512 routed experts + 1 shared expert,每 token 激活 22 个。

Parameters & Hyperparameters

  • 120B total / 12B active
  • 88 layers / 4096 hidden / 32 heads / 2 KV heads
  • 262,144 context;官方页写可扩到 1M 级工作场景。
  • 其他关键值:conv_kernel = 4chunk_size = 128moe_latent_size = 1024

Training

  • 官方同时公开了 pre-training datasetspost-training datasets collection。
  • README 说明:pretraining 数据截止 2025-06,post-training 数据截止 2026-02

Key Takeaways

  • Nemotron-3 Super 的意义在于它把 2026 年流行的几条效率线几乎全揉在一起了:SSM + Attention hybrid + LatentMoE + MTP + open datasets

Links


VLM

Google

MedGemma 1.5 4B

MedGemma

Release & Open Sources

  • 发布时间:2026-01-07
  • 形态:医疗场景视觉语言模型,官方开放权重但 gated access。

Architecture

  • MedGemma 不是全新 backbone,而是沿用 Gemma / 医疗视觉家族的通用视觉语言框架:medical image encoder + Gemma text decoder + multimodal projector
  • 公开 release 的重点是 domain adaptation,而不是发明新的 attention block。
  • 因为官方 gated 页面之外没有公开完整 config,本节只写官方确认的结构层级,不猜逐层超参数。

Parameters & Hyperparameters

  • 家族公开尺寸中,本轮常用公开 checkpoint 为 4B
  • 更细的 hidden size / heads / FFN 宽度在公开页面未完全披露。

Training

  • 官方文档强调医疗图像与临床问答场景的适配。
  • 公开 release 更强调 domain post-training 与安全评估,不像一般基础模型那样披露完整 token 预算。

Key Takeaways

  • MedGemma 的意义在“医疗 domain 开放模型家族”,不是架构大改。

Links

StepFun / 阶跃星辰

Step3-VL-10B

Step3-VL-10B

Release & Open Sources

  • 发布时间:2026-01-13
  • 官方来源:paper、HF、ModelScope、GitHub 组织。

Architecture

  • 整体结构是 vision encoder + projector + Qwen3-based text decoder
  • 视觉塔很大:47 层、1536 width、patch 14image_size 728,激活函数 quick_gelu
  • 文本侧是 Qwen3 风格 decoder:36 layers,block 为 RMSNorm -> attention -> residual -> RMSNorm -> MLP -> residual,激活函数 SiLU
  • projector stride 2,说明它通过下采样控制视觉 token 数,而不是简单暴力拼接。

Parameters & Hyperparameters

  • 官方定位是 10B 量级。
  • 文本侧 config:4096 hidden / 36 layers / 32 heads / 8 KV heads / 65536 context
  • 视觉侧:47 layers / width 1536 / patch 14 / image size 728

Training

  • 技术报告 arXiv:2601.09668
  • 官方 release 强调“10B 尺度下的前沿级多模态能力”,重点在视觉理解、推理和 alignment。
  • 公开页面没有完整披露 multimodal pretraining 数据量。

Key Takeaways

  • Step3-VL-10B 的重要性在于:它不是把小视觉模型挂在小 LLM 上,而是非常认真地给 10B 量级做了一套大视觉塔 + 强文本主干的配比。

Links

Z.ai / 智谱

GLM-OCR

GLM-OCR

Release & Open Sources

  • 发布时间:2026-01-30
  • 形态:复杂文档 OCR / document understanding 模型。

Architecture

  • 这是一个非常清晰的 vision encoder + lightweight connector + text decoder 结构。
  • 官方 README 直接写出:视觉侧基于 CogViT,文本侧是 GLM-0.5B decoder,同时引入 MTP loss 和 full-task RL。
  • 从 config 看,视觉塔 24 层、1024 hiddenpatch 14、输出到 1536 维;文本 decoder 为 16 layers / 1536 hidden / 16 heads / 8 KV heads
  • block 层级上,视觉和文本两侧激活函数都使用 SiLU

Parameters & Hyperparameters

  • 官方给出整模型约 0.9B
  • 文本侧 context 131072
  • 视觉侧 image size 336spatial_merge_size = 2
  • 文本侧还有 num_nextn_predict_layers = 1,说明它也在做 next-token draft / MTP。

Training

  • 官方重点披露的是两阶段系统:布局分析依赖 PP-DocLayout-V3,识别模型再做并行识别。
  • 训练方法包括 MTP loss 与稳定 RL;完整数据量未在 README 顶部披露。

Key Takeaways

  • GLM-OCR 很像一个面向工业文档场景打磨过的 VLM,而不是单纯把聊天 VLM 拿来做 OCR。

Links

DeepSeek

DeepSeek-OCR-2

DeepSeek-OCR-2

Release & Open Sources

  • 发布时间:2026-01-27
  • 形态:视觉因果流 OCR 模型。

Architecture

  • 这条线不是标准的“视觉塔 + 大 decoder”复制,而是明显针对 OCR 任务做过裁剪。
  • 视觉侧融合了 SAM ViT-BDeepEncoderV2 风格模块,之后接线性 projector,再接一个 DeepSeekV2 风格语言侧。
  • 文本主干:12 layers / 1280 hidden / 10 heads / 64 experts / top-6
  • projector 非常轻:linear projector,把视觉表征投到 1280 维文本空间。

Parameters & Hyperparameters

  • 语言侧:1280 hidden / 12 layers / 10 heads / 10 KV heads / 8192 context
  • experts:64 routed + 2 sharedtop-6
  • 视觉分辨率:官方 config 支持 1024 x 1024 candidate resolution。

Training

  • 技术报告 arXiv:2601.20552
  • 官方强调 “visual causal flow”,说明它想解决的不是单页 OCR 精度而已,而是更接近人类阅读顺序的 causal visual encoding。
  • README 没有完整披露预训练 / 后训练 token 数。

Key Takeaways

  • DeepSeek-OCR-2 的方向很清晰:把 OCR 当成“视觉序列到文本序列”的因果建模问题,而不是传统检测+识别拼接。

Links

IBM

Granite 4.0 3B Vision

Granite 4.0 3B Vision

Release & Open Sources

  • 发布时间:2026-03-03
  • 形态:轻量视觉语言模型,偏 document / enterprise use case。

Architecture

  • 总体结构是 vision encoder + projector + Granite 4.0 text backbone
  • 文本主干 40 layers / 2560 hidden / 40 heads / 8 KV heads;激活 SiLU
  • 视觉塔 1152 hidden / patch 16 / image size 384
  • README 提到 Deepstack injection:视觉特征在多个层位点加性注入文本隐藏状态,而不是只做单次前置拼接。这是它比较有辨识度的一点。

Parameters & Hyperparameters

  • 官方模型名给出 3B 级。
  • 文本侧 context 131072
  • projector 激活 GELU
  • 公开页面没有把总激活参数拆成 dense / sparse 两部分。

Training

  • README 强调文档解析、图表、表格与结构化提取场景。
  • 训练数据里至少明确出现了 ChartNet 和 Granite Vision instruction-following 数据。

Key Takeaways

  • Granite 4.0 3B Vision 更像一条 enterprise document VLM,而不是追求通用多模态 benchmark 排名的消费级模型。

Links


Other Multimodal

Meituan / 美团

LongCat-Next

LongCat-Next

Release & Open Sources

  • 发布时间:2026-03-25
  • 形态:原生离散多模态模型,支持 text / image / audio。

Architecture

  • LongCat-Next 是本文里最像“native multimodal stack”的国内模型之一。
  • 文本主干沿用 LongCat 稀疏主线:3072 hidden / 32 heads / 256 experts / top-12
  • 视觉侧官方突出 dNaViT(Discrete Native-Resolution Vision Transformer),说明它不是简单把图像 resize 后切 patch,而是为 native-resolution 离散视觉 token 设计的视觉前端。
  • config 里还能看到音频相关字段、VQ 配置和视觉 embedding 层,说明它把视觉 / 音频离散 token 直接纳入统一生成框架。

Parameters & Hyperparameters

  • 文本侧:14 layers / 3072 hidden / 32 heads / 131072 context
  • 视觉 embedding 隐层:8192 intermediate。
  • 词表:总词表 282624,说明大量多模态特殊 token 已经并入主词表。

Training

  • 公开材料强调“native multimodality”与 tokenizers 一并开源。
  • 完整训练数据量官方未披露。

Key Takeaways

  • LongCat-Next 的关键不在于又做了一个聊天 VLM,而是在试图把 image/audio token 真正作为一等公民塞进统一生成框架。

Links

EvoCUA

EvoCUA

Release & Open Sources

  • 发布时间:2026-01-05 首发 32B2026-01-13 首发 8B
  • 形态:computer-use agent 模型。

Architecture

  • EvoCUA 没有重新发明一套新的 VLM backbone,而是基于 Qwen3-VL 主干做 computer-use 强化。
  • 因此其模型 block 仍是 Qwen3-VLvision tower + projector + decoder。真正新的部分在动作建模、任务环境和后训练。
  • 从模型页可确认 base models 是 Qwen/Qwen3-VL-32B 与对应小尺寸版本。

Parameters & Hyperparameters

  • 开源版本:32B8B
  • 32B 版 config:64 text layers / 5120 hidden / 64 heads / 8 KV heads / 262144 context
  • 视觉塔:27 层、1152 hiddenpatch 16

Training

  • 这是官方公开得最完整的一条 computer-use 训练线之一:Cold Start -> RFT -> RL
  • 美团博客明确强调可验证数据合成引擎、十万级并发交互沙盒、以及从“静态轨迹模仿”转到“经验进化学习”。

Key Takeaways

  • EvoCUA 不是“又一个 GUI agent demo”,而是把 computer-use environment + policy training + open checkpoints 一起放了出来。

Links

LongCat-Image-Edit-Turbo

LongCat-Image-Edit-Turbo

Release & Open Sources

  • 发布时间:2026-02-03
  • 说明:这是 2026 发布的 Turbo 变体,架构说明依赖家族官方技术报告。

Architecture

  • 它是 LongCat-Image-Edit 的蒸馏 turbo 版本,目标是把高质量图像编辑压到极低 NFE
  • README 直接写明:Turbo 版在 8 NFE 下完成高质量编辑,这说明底层仍然是扩散式编辑框架,只是蒸馏得更激进。
  • 公开 config 很轻,未把 backbone 层级全部展开,因此 block 级细节主要来自家族报告而不是 Turbo config 文件。

Parameters & Hyperparameters

  • Turbo 版公开页主要强调 8 NFE
  • 更细的层数、hidden size 没有在 Turbo 模型页完整披露。

Training

  • 采用家族报告里的图像编辑 / 生成训练管线;Turbo 版是蒸馏加速。
  • 基础报告首发于 2025 末,Turbo 变体在 2026 Q1 开放。

Key Takeaways

  • 这条线的重要性在于把“高质量图像编辑”和“极低 NFE”同时做成了开源变体。

Links

Z.ai / 智谱

GLM-Image

GLM-Image

Release & Open Sources

  • 发布时间:2026-01-08
  • 形态:文本到图像 + 图像编辑模型。

Architecture

  • 这条线非常值得单独看,因为它不是纯 diffusion,而是 autoregressive generator + diffusion decoder 的双阶段混合结构。
  • 官方 README 直接写了两部分:
    • 9B autoregressive generator,先生成约 256 个紧凑视觉编码,再扩展到 1K-4K token;
    • 7B diffusion decoder,采用 single-stream DiT
  • 扩散解码器里还带 Glyph Encoder,这是它能把图像内文字渲染做得更好的关键。

Parameters & Hyperparameters

  • 9B AR generator + 7B diffusion decoder
  • AR 主干初始化自 GLM-4-9B-0414
  • 生成 token 范围:大约 256 -> 1K-4K 视觉 token。

Training

  • 官方博客强调它在 text rendering、知识密集型生成与 image editing 上的优势。
  • 更细的训练数据量未在 README 顶部披露。

Key Takeaways

  • GLM-Image 说明 2026 年国内开源图像模型已经不满足于“再做一个 latent diffusion”,而是在探索 AR 与 diffusion 的组合式解码。

Links

Qwen / 通义千问

Qwen3-ASR

Qwen3-ASR

Release & Open Sources

  • 发布时间:2026-01-28
  • 形态:自动语音识别模型。

Architecture

  • Qwen3-ASR 不是一个简单 Whisper 复刻。它显式拆成 audio encoder + text thinker/decoder
  • audio encoder 侧:d_model = 102424 encoder layers、16 attention heads、FFN 4096,激活函数 GELU
  • 文本 thinker 侧:2048 hidden / 28 layers / 16 heads / 8 KV heads / 65536 context,激活函数 SiLU
  • 因此它本质上是一条 speech encoder -> language decoder 的双塔生成架构。

Parameters & Hyperparameters

  • 官方开源有 1.7B0.6B 两档,本节聚焦 1.7B
  • audio branch:24L / d_model 1024 / 16 heads
  • text branch:28L / hidden 2048 / 16 heads / context 65536

Training

  • 官方 README 强调多语言、流式与强制对齐工具链。
  • 完整 token / 小时数未在公开页完整披露。

Key Takeaways

  • Qwen3-ASR 的价值在于:它把语音识别和语言推理衔接得更像一个可扩展生成模型,而不是孤立声学模型。

Links

Qwen3-TTS

Qwen3-TTS

Release & Open Sources

  • 发布时间:2026-01-21
  • 形态:文本到语音家族。

Architecture

  • 这条线明确拆成 speaker encoder + talker + code predictor
  • talker 是主语言生成器:2048 hidden / 28 layers / 16 heads / 8 KV heads / SiLU
  • code predictor 更小:1024 hidden / 5 layers / 16 heads / 8 KV heads,负责声码序列或 codec 相关 token 预测。
  • 因此可以把它理解成“主语言声学规划器 + 小型语音 code head”的二级生成结构。

Parameters & Hyperparameters

  • 官方开源的主模型有 1.7B0.6B
  • speaker encoder dim = 2048
  • talker28 layers / hidden 2048 / intermediate 6144
  • code predictor5 layers / hidden 1024 / heads 16

Training

  • 官方页面强调 rapid voice cloning、voice design 与实时 TTS。
  • 更细的训练小时数 / 语料量未在公开 README 完整拆出。

Key Takeaways

  • Qwen3-TTS 的结构重点在“把长程语言规划和低层语音 token 预测显式解耦”,这也是它适合 voice cloning / voice design 的原因。

Links

Mistral AI

Voxtral Mini 4B Realtime

Voxtral Mini 4B Realtime

Release & Open Sources

  • 发布时间:2026-01-21
  • 形态:实时流式语音转写模型。

Architecture

  • 整体是 causal audio encoder + text decoder
  • 音频侧:32 层、1280 hidden32 heads128 mel bins,并且使用 sliding window = 750 做流式建模。
  • 文本侧:26 层、3072 hidden32 heads / 8 KV headssliding window = 8192
  • 官方特别强调 audio encoder 是 trained from scratch with causal attention enabling streaming capability

Parameters & Hyperparameters

  • 官方拆解:约 3.4B 语言模型 + 970M 音频编码器,总计约 4B
  • 支持 <500ms 延迟。
  • audio_length_per_tok = 8downsample_factor = 4

Training

  • 技术报告 arXiv:2602.11298
  • 公开材料重点放在 streaming accuracy / latency tradeoff,不是大规模 token 数。

Key Takeaways

  • Voxtral Realtime 是 2026 Q1 少数把“真正的流式、低延迟、开源 speech model”讲清楚的工业级 release。

Links

StepFun / 阶跃星辰

Step-Audio-R1.1

Step-Audio-R1.1

Release & Open Sources

  • 发布时间:2026-01-14
  • 形态:实时对话与音频推理模型。

Architecture

  • 官方最强调的是 Dual-Brain Architecture
    • Formulation Brain 负责高层 reasoning;
    • Articulation Brain 负责低延迟语音输出。
  • 这不是普通 ASR/TTS 级联,而是显式尝试“thinking while speaking”。
  • 模型同时强调 acoustic-grounded reasoning,说明它不是先把声音全转成文字再思考,而是部分直接在声学表示上推理。

Parameters & Hyperparameters

  • 公开 README 对系统结构描述比逐层 config 更完整。
  • 具体层数、heads、hidden size 在公开页没有像 Step3-VL 那样完整展开。

Training

  • 官方重点是两条:Mind-Paced Speakingiterative self-distillation
  • 这说明 R1.1 的改进主要来自后训练和推理规划,而不是更大的底座。

Key Takeaways

  • Step-Audio-R1.1 值得关注的地方是“推理”和“说话”被显式拆成两套 brain,这和大多数实时语音模型很不一样。

Links

Microsoft

VibeVoice-ASR

VibeVoice-ASR

Release & Open Sources

  • 发布时间:2026-01-21
  • 形态:长音频、带说话人和时间戳结构化输出的统一 ASR 模型。

Architecture

  • VibeVoice-ASR 是 acoustic tokenizer + unified decoder 路线。
  • 它带一个明确的 acoustic tokenizer / VAE,之后由长上下文 decoder 一次性生成 Who / When / What
  • decoder config:3584 hidden / 28 layers / 28 heads / 4 KV heads / 131072 context,激活函数 SiLU
  • acoustic tokenizer 则是卷积 + depthwise mixer 路线,并不是简单 mel frontend。

Parameters & Hyperparameters

  • 主 decoder:28 layers / hidden 3584 / intermediate 18944
  • acoustic tokenizer:VAE dim 64
  • 支持单次 60 分钟 音频输入。

Training

  • 技术报告 arXiv:2601.18184
  • 官方重点是长音频单次处理、说话人分离、热词支持、多语言。

Key Takeaways

  • VibeVoice-ASR 最强的点不是 WER 单项,而是把 diarization、timestamps 和 transcription 统一成一次性生成任务。

Links

IBM

Granite 4.0 1B Speech

Granite 4.0 1B Speech

Release & Open Sources

  • 发布时间:2026-02-27
  • 形态:紧凑 speech foundation model。

Architecture

  • 结构是 speech encoder + Q-Former projector + Granite text decoder
  • speech encoder:16 层、1024 hidden8 heads、卷积核 15
  • projector 是 BLIP-2 / Q-Former 风格:2 层、1024 hidden16 heads
  • 文本侧是 Granite 4.0 1B base2048 hidden / 40 layers / 16 heads / 4 KV heads

Parameters & Hyperparameters

  • family 规模约 1B
  • 文本 context 4096
  • speech encoder 输入维度 160,输出维度 348,downsample rate 5

Training

  • README 直接给了两篇技术报告:2505.086992603.11243
  • 并列出了 Common Voice、MLS、LibriSpeech、VoxPopuli、AMI、YODAS 等大量语音语料。

Key Takeaways

  • Granite 4.0 1B Speech 更像一个面向企业 / 开发者的轻量开源语音底座:结构清晰、依赖少、训练数据透明度相对高。

Links

Closing Thoughts

如果把 2026 Q1 的开源模型放在一起看,有几条趋势特别清楚。

  • 第一,MoE 已经从“参数扩张工具”变成了默认工程选项。MiMo-V2-FlashKimi-K2.5MiniMax-M2.5Qwen3-Coder-NextQwen3.5 MoEGLM-5Step-3.5-FlashNemotron-3 Super 几乎都在不同程度上走向 sparse routing。
  • 第二,attention 正在持续异构化。MLAlinear / DeltaNet + periodic full attentionhybrid SWA/GAMamba + Attention 不再是少数实验架构,而是主线开源模型的现实选择。
  • 第三,后训练越来越“agent-native”。很多 2026 模型的核心卖点已经不是 SFT,而是 agentic RLmulti-environment RLcomputer-useformal provingtool-integrated reasoning
  • 第四,模态融合在分化。通用基础模型倾向于早融合;文档 / OCR 模型倾向于更轻、更窄的 connector;语音模型则普遍显式拆成 encoder + language modelreasoning brain + articulation brain

从写作角度说,2026 Q1 很难再用“开源模型就是某家 7B / 70B transformer”去概括。现在真正重要的是:它到底把哪些结构变量拿出来优化了,优化目标是吞吐、长上下文、agent RL、视觉 token 效率,还是音频流式交互。

References

[1] Xiaomi MiMo, MiMo-V2-Flash Blog.
[2] Xiaomi MiMo, MiMo-V2-Flash Technical Report.
[3] Moonshot AI, Kimi K2.5 Blog.
[4] Moonshot AI, Kimi K2.5 Technical Report.
[5] Meituan LongCat, LongCat-Flash-Thinking-2601.
[6] Meituan LongCat, LongCat-Flash-Lite Technical Report.
[7] Meituan LongCat, LongCat-Flash-Prover Technical Report.
[8] MiniMax, MiniMax M2.5.
[9] MiniMax, Forge: Scalable Agent RL Framework and Algorithm.
[10] Qwen, Qwen3-Coder-Next Blog.
[11] Qwen, Qwen3.5 Blog.
[12] Z.ai, GLM-5 Blog.
[13] Z.ai, GLM-OCR Technical Report.
[14] Z.ai, GLM-Image Blog.
[15] DeepSeek, DeepSeek-OCR-2 Technical Report.
[16] Mistral AI, Voxtral Mini 4B Realtime.
[17] NVIDIA, NVIDIA Nemotron-3 Super Technical Report.
[18] StepFun, Step 3.5 Flash.
[19] StepFun, STEP3-VL-10B Technical Report.
[20] Microsoft, VibeVoice-ASR Technical Report.
[21] Meituan, EvoCUA Technical Blog.
[22] Meituan, EvoCUA Technical Report.
[23] IBM Granite, granite-4.0-3b-vision.
[24] IBM Granite, granite-4.0-1b-speech.