谷歌为Gemma 4系列AI模型推出MTP起草器

AI快讯苏晓 2026-05-08 11:12:54 来源:中房网

 中房网讯 5月5日,谷歌发布博文表示,为Gemma 4系列AI模型推出多Token预测(MTP)起草器,利用推测解码架构,推理速度最高可提升3倍。

  据悉,谷歌曾表示,目前标准大语言模型推理通常受限于内存带宽,导致严重的延迟瓶颈。处理器需耗费大量时间将数十亿参数从显存传输至计算单元,造成了计算资源的利用率不足。而为了解决这个核心痛点,谷歌为Gemma 4系列大模型引入推测解码技术,配对重型目标模型(如 Gemma 4 31B)与轻量级起草器(MTP 模型)。

  起草器利用闲置算力,在短时间内预测多个未来 Token,目标模型随后并行验证这些令牌。若预测通过,模型可在单次前向传递中确认整个序列,大幅缩短生成时间。