不茶不饭网>江苏 > 正文

美团龙猫技术升级！新注意力机制速度�倍，还能处񈠽M超长文本

来源：不茶不饭网-工人日报

2026-04-26 04:48:48

闻乐发自凹非寺量子位 | 公众号 QbitAI

256K文本预加载提速�%，还解锁𱄽M上下文窗口。

美团龙猫LongCat系列新年出招，发布全新稀疏注意力机制LoZA（LongCat ZigZag Attention）

新技术集中火力，重点解决长文本任务的理解、算力难题。

相比于LongCat系列之前的全注意力MLA机制，LoZA只改了一半的核心模块。

但模型长文本能力�K扩展𳗡M，解码速度还快了不少。

甚至比同类型的Qwen-3模型表现还要好。

接下来看具体方案。

如何做到 “只算关键部分” ？

全注意力机制的算力瓶颈在于平方级的计算复杂度O (L²)，这导致模型在处理长文本任务时对显卡要求高，还会出现推理延迟问题。

LoZA的核心思路是专注于处理重要的内容，不重要的部分少花力气。

作为LongCat系列的核心技术升级，LoZA主要是在原来的MLA机制上做改造。

具体分两步。

首先，给模型里的多头潜在注意力模块MLA做一个全局“筛查”，找出哪些模块可以被改造。

在原来的MLA架构中，每个MLA模块都是处理注意力的核心单元，现在的新方案是给每个模块配一个可学习权重α。

α值越高，说明该模块额全注意力计算越关键，一旦简化就容易丢性能；α值越低就意味着模块的可替代性强，即便换成更轻量的计算方式，对整体的理解能力影响也不大。

在训练过程中，团队冻结模型其他参数，只更新α的梯度，通过这种专门的校准训练让模型自主学习α值，然后按α值从小到大排序，找出那些稀疏化后不影响性能的MLA模块，也就是后续的优化目标。

随后，将找出�%低性能模块换成更轻巧的流式稀疏注意力SSA

这样就形成了一种交错结构，团队将这种结构称为ZigZag

SSA的计算复杂度是线性的O (L·S)（S为稀疏窗口大小，固定�Token），远低于全注意力的O (L²)。

所以这种交错结构让模型既不会因为过度简化而变笨，又能把计算复杂度降到线性级别，省不少算力。

为了让模型在关注局部细节的基础上不忽略整体逻辑，LoZA还设计了一�Token稀疏窗口

每个窗口里񀙛个负责抓整体关联的“全局块”𴵿个负责盯附近内容的“局部块”，单块大小�Token。

这样的改造也不需要从头训练，在中期训练阶段就能完成，成本也比较低。

从测试数据来看，LoZA的表现也不错，主要是“更快”的同时“没变笨”

速度上，要是处�K上下文，解码速度直接比原来�倍；

256K上下文，模型预加载（读文本过程）速度快�%，后续解码阶段生成内容时还能�%的算力，相当于同样的硬件，现在能同时处理两倍多的长文本任务。

这也让LongCat-Flash-Exp解锁𱄽M上下文窗口。

性能上，LoZA也没因为简化而缩水。

处理回答问题、写代码这类日常任务时，和原版LongCat-Flash持平；处理长文本任务时，表现反而更好。

比如在MRCR测试里，反超了同样能处񈠽M长文本的Qwen-3模型，还更稳定。

接下来，团队还计划让LoZA支持动态稀疏比例

短文本场景自动多用全注意力保证精度，长文本场景自动增加稀疏模块提升效率，甚至适配多模态模型处理长视频、长图文内容。

好一个新年新气象！

论文地址：https://www.alphaxiv.org/abs/2512.23966

— 完 —

责任编辑：不茶不饭网

媒体矩阵

客户端
微信号
微博号
抖音号

美团龙猫技术升级！新注意力机制速度�倍，还能处񈠽M超长文本

媒体矩阵

推荐

海纳：于帕被其他俱乐部追求不令人意外，我对他的续约很乐观

湖北通报：5名干部醉驾，被“双开”

文旅部直属科研单位艺科所打假：有机构冒名在多省市违规开展考级

（新春走基层）老调新词话变迁：百年花灯照亮“边城”新气象

大学课堂为何沉默？听课的是“Z世代”，讲课者却还在旧时代

看点

海纳：于帕被其他俱乐部追求不令人意外，我对他的续约很乐观

海纳：于帕被其他俱乐部追求不令人意外，我对他的续约很乐观

海纳：于帕被其他俱乐部追求不令人意外，我对他的续约很乐观

海纳：于帕被其他俱乐部追求不令人意外，我对他的续约很乐观

海纳：于帕被其他俱乐部追求不令人意外，我对他的续约很乐观

海纳：于帕被其他俱乐部追求不令人意外，我对他的续约很乐观

工会24小时

网评推荐

客户端