新闻
2026-04-23 03:33 点击次数:63

Diffusion Transformer 模子模子通过 token 粒度的缓存递次开云体育(中国)官方网站,终明显图像和视频生成模子上无需磨砺的两倍以上的加快。
上海交通大学等团队提议 Toca(Token-wise Caching),相干论文已被 ICLR 2025 剿袭。

Diffusion Transformer 在图像和视频生成中展现了显赫的效力,但代价是渊博的计较资本。
为了搞定这一问题,特征缓存递次被引入,用于通过缓存前几个期间步的特征并在后续期间步中复用它们来加快扩散 Transformer。
可是,之前的缓存递次忽略了不同的 token 对特征缓存发扬出不同的明锐性,而对某些 token 的特征缓存可能导致生成质料举座上高达 10 倍的龙套,相较于其他 token。
Toca 团队提议了基于 token 的特征缓存递次,允许自妥当地选择最合适进行缓存的 token,并进一步为不同类型和深度的神经集结层期骗不同的缓存比率。
通过在 PixArt- α、OpenSora 和 DiT, 以及 FLUX 上的庸碌实验,团队阐明注解了在图像和视频生成中无需磨砺即可终了团队递次的有用性。举例,在 OpenSora 和 PixArt- α 上永诀终明显 2.36 倍和 1.93 倍的接近无损的生成加快。
配景 Backgrounds
扩散模子 ( Diffusion Models ) 在图像生成、视频生成等多种生成任务中展现了出色的性能。连年来,以 FLUX, Sora, 可灵等模子为代表的 Diffusion Transformers 通过彭胀参数目和计较限度进一步股东了视觉生成界限的发展。可是,Diffusion Transformers 濒临的一个紧要挑战在于其高计较资本,这导致推理速率渐渐,从而遮掩了其在实时场景中的实质期骗。为了搞定这一问题,商议者们提议了一系列加快递次,主要归并在减少采样步数和加快去噪集结模子。
近期,基于特征缓存来终了去噪模子加快的递次由于其优秀的无损加快性能,以及无需磨砺的优良性能,受到工业界的庸碌关心。上海交通大学张林峰团队进一步提防到一个自可是意旨的相貌:不同计较层,以及同计较层的不同 Token 关于缓存罪过的妥当性不同,相同的缓存罪过在不同位置对模子影响最高不错达到数十,百倍的互异,因此有必要进一步将模子加快的粒度由特征级进一步到 token 级,并研讨了奈何斟酌视觉生成模子中 token 的进攻性,以终了进攻 token 的筛选保留。
中枢孝顺
ToCa 初次在 DiT 加快中中引入 token 级的缓存复用计谋,并初次从罪过累积与传播的角度分析特征缓存递次。
ToCa 提议 4 种从不同角度启程,适用于不珍爱形的 token selection 计谋:
基于 Self-Attention Map 来评估 token 对其它 token 的影响 ;
基于 Cross-Attention Map 评估文生图 / 视频任务中 image token 对 text token 的关心散播,以加强闭幕智商 ;
基于该 token 在先赶赴噪步中的被一语气缓存复用的次数联想增益计谋,饱读动 token 在期间步上被更均匀地计较,幸免局部罪过累积过大,龙套全局图像 ;
将各个 token 的进攻性得分基于空间散播进行加权,饱读动被计较的 token 在空间上散播更均匀。
ToCa 被期骗于多种最新模子上开展实验,阐明注解了其比拟现存递次愈加优秀,包含文生图模子 PixArt-alpha,FLUX-dev 和 FLUX-schnell,文生视频模子 OpenSora,以及基于 ImageNet 类标签生成图像的 DiT 模子。
商议动机

如图 1 所示,不同 token 在相邻两步间进行特征缓存引入的罪过值的互异高达几十上百倍;
图 2 阐明不同 token 上引入相同大小的罪过,这领先幅度交流的罪过在模子推理过程经过累积和传播,对模子的输出的影响互异也极大。因此,有必要研讨 token 级别的特征缓存 - 复用计谋,使得模子的计较更归并在关节被需要的 token 上。
递次计较历程
ToCa 的缓存 - 复用历程如图 3 ( a ) 所示:
Cache 起先化 起先推理一个完竣的期间步,将各层的特征放入 cache 中以便使用。
进攻性得分计较在使用 ToCa 的期间步上,关于每一层:先计较各个 token 的进攻性得分,将最低的部分 token 符号为 cache 景色(举例图示中 ID 为 1 和 3 的 token),不传入集结层进行计较。
部分计较关于被传入的 token ( 2,4,5 ) , 推行平日的计较 , 得到它们的输出。
Cache 更新从 cache 中调出存储的 token 1,3 的输出,并将计较得到的新的 token 2,4,5 输出更到 cache 中。
赓续这么的一个轮回长度为 2~4 个期间步,即 1 步充分计较后续搭配 1 至 3 个 ToCa step。此外,ToCa 还基于不同层的进攻性,联想了跟着层深度上涨而衰减的计较比例,确定请参考论文。

进攻性得分计较
如图 4 所示,ToCa 联想了基于 4 个不同方面研讨的进攻性分数计较,在实质期骗中它们以 加权乞降给出总的进攻性得分,确定请参考论文。

实验收尾
ToCa 被期骗于文本到图像生成模子 PixArt-alpha, FLUX, 类到图像生成模子 DiT, 以及文本到视频生成模子 OpenSora 以考据其递次有用性,充分的实验收尾阐明注解,ToCa 具有越过其他同类递次的加快效力。
图像生成模子 : PixArt-alpha,FLUX, DiT

如上图所示,ToCa 比拟另两种加快递次和无加快的高质料原图对王人效力更佳,且具有更佳的图 - 文对王人智商(举例从左到右第四列的 wooden dock)。

从 FID-30k 和 CLIP Score 上斟酌,ToCa 也得到了远超其他递次的发扬。

如上图所示,ToCa 在 FLUX 模子上的生成质料也极佳,不错看到和原图基本莫得互异。但值得研讨的是在翰墨生成这类对细节条目极其高的任务上(举例左下角的舆图)仍有互异,这将行为团队后续商议的起点。

关于高档的模子,使用 Image Reward 赓续能更好地对生成质料进行斟酌,团队永诀在 50step 的 FLUX-dev 和 4step 的 FLUX-schnell 上开展了实验,不错看到,ToCa 在 FLUX 上 1.5 倍加快,比拟未加快模子的数值主意基本不变,远远优于其他递次。

在基础模子 DiT 上的收尾也阐明注解了 ToCa 的优厚性。
视频生成模子:OpenSora
团队制作了一个网页来展示 OpenSora 上的加快效力。
https://toca2024.github.io/ToCa
此外,团队将视频生成收尾部分抽帧以供快速浏览:


在 VBench 上测试 ToCa 的加快效力,实验收尾标明,ToCa 远优于其他递次,得到了高达 2.36 倍的无损加快 , 在加快效力和生成质料上都得到最优发扬。
ToCa 在 VBench 的大部分主意上都得到了和原模子委果交流的得分。

回来
ToCa 行为初次被提议的从 Token 级来终了扩散模子加快的递次,比拟以往加快递次具有更强的适配性,(尽管联想时行为专为 DiT 加快的有筹画,它的结构也不错被复用到 U-Net 结构的模子上),同期在多种任务上具有极佳的发扬。连年来,包括 ToCa 在内的系列基于特征缓存的扩散模子加快递次兼具无需磨砺的优厚性和强劲的无损加快效力,得到了极度的见效,是一种不同于蒸馏类递次的值得被进一步探索的加快有筹画。
论文:https://arxiv.org/abs/2410.05317
Github:https://github.com/Shenyi-Z/ToCa
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 形态主页指导,以及考虑方式哦
咱们会(尽量)实时回应你

一键关心 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「防范心」
接待在驳倒区留住你的念念法!开云体育(中国)官方网站
Powered by Kaiyun网页版·「中国」开云官方网站 登录入口 @2013-2022 RSS地图 HTML地图