大模型无限流式输入推理飙升46%！国产开源加速「全家桶」，打破多轮对话长度限制

2024-01-10 12:20#1 标记1

【导读】大模型推理再次跃升一个新台阶！最近，全新开源的国产SwiftInfer方案，不仅能让LLM处理无限流式输入，而且还将推理性能提升了46%。
在大型语言模型（LLM）的世界中，处理多轮对话一直是一个挑战。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM，能够在不牺牲推理速度和生成效果的前提下，可实现多轮对话总共400万个token的流式输入，22.2倍的推理速度提升。
但StreamingLLM使用原生PyTorch实现，对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。
Colossal-AI团队开源了SwiftInfer，基于TensorRT实现了StreamingLLM，可以进一步提升大模型推理性能46%，为多轮对话推理提供了高效可靠的落地方案。
开源地址：https://github.com/hpcaitech/SwiftInfer
StreamingLLM简介
大语言模型能够记住的上下文长度，直接影响了ChatGPT等大模型应用与用户互动的质量。
如何让LLM在多轮对话场景下保持生成质量，对推理系统提出了更高的要求，因为LLM在预训练期间只能在有限的注意力窗口的限制下进行训练。
常见的KV Cache机制能够节约模型计算的时间，但是在多轮对话的情景下，key和value的缓存会消耗大量的内存，无法在有限的显存下无限扩展上下文。
同时，训练好的模型在不做二次微调的前提下也无法很好地泛化到比训练序列长度更长的文本，导致生成效果糟糕。

来源：https://arxiv.org/pdf/2309.17453.pdf
StreamingLLM为了解决了这个问题，通过观察了注意力模块中Softmax的输出，发现了attention sink的现象。
我们知道注意力机制会为每一个token分配一个注意力值，而文本最初的几个token总是会分配到很多无用的注意力。
当我们使用基于滑动窗口的注意力机制时，一旦这几个token被踢出了窗口，模型的生成效果就会迅速崩溃。但只要一直把这几个token保留在窗口内，模型就能稳定地生成出高质量的文本。
比起密集注意力（Dense Attention）、窗口注意力（Window Attention）以及带重计算的滑动窗口注意力(Sliding Window w/ Re-computing)，StreamingLLM基于attention sink的注意力机制无论是在计算复杂度还是生成效果上都表现优异。
在不需要重新训练模型的前提下，StreamingLLM能够直接兼容目前的主流大语言模型并改善推理性能。
SwiftInfer：基于TensorRT的StreamingLLM实现
为了将StreamingLLM这一技术更好的应用到落地场景，Colossal-AI团队成功地将StreamingLLM方法与TensorRT推理优化结合，不仅继承了原始StreamingLLM的所有优点，而且还具有更高的运行效率。
此外，使用TensorRT-LLM的API，还能够获得接近于PyTorch API的模型编写体验。基于TensorRT-LLM，团队重新实现了KV Cache机制以及带有位置偏移的注意力模块。
如下图所示，假设窗口大小为10个token，随着生成的token增加（由黄色方块表示），我们在KV缓存中将中间的token踢出，与此同时，始终保持着文本开始的几个token（由蓝色方块表示）。由于黄色方块的位置会发生变化，在计算注意力时，我们也需要重新注入位置信息。

需要注意的是，StreamingLLM不会直接提高模型能访问的上下文窗口，而是能够在支持流式超多轮对话的同时保证模型的生成效果。
大模型无限输入流推理加速46%
原版本的StreamingLLM可以可靠地实现超过400万个token的流式输入，实现了比带重计算的滑动窗口注意力机制高出22.2倍的速度提升。
Colossal-AI团队发布的SwiftInfer可以进一步提升推理性能，最多带来额外的最多46%的推理吞吐速度提升，为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。TensorRT-LLM团队也在同期对StreamingLLM进行了类似支持。

Colossal-AI社区动态
Colossal-AI目前已获得GitHub星数三万五千多颗，位列全球TOP400，细分赛道排名世界第一，可通过高效多维并行、异构内存等，降低AI大模型训练/微调/推理的开发与应用成本，提升模型任务表现，降低GPU需求。作为主流开源AI大模型系统社区，Colossal-AI生态在多方面保持活跃更新。

Colossal-LLaMA-2-13B开源
Colossal-LLaMA-2-13B模型，仅用25B token数据和万元算力，效果远超基于 LLaMA-2 的其他中文汉化模型。
即使与其他采用中文语料，可能花费上千万元成本，从头预训练的各大知名模型相比，Colossal-LLaMA-2在同规模下仍表现抢眼。
13B 版本通过构建更为完善的数据体系，在知识性内容掌握程度，自然语言处理任务理解程度，以及安全性，价值观等问题上，都有质的提升。

Colossal-AI云平台
Colossal-AI云平台在整合Colossal-AI系统优化和廉价算力的基础上，近期发布了AI云主机的功能，方便用户以近似裸机的方式进行AI大模型的开发和调试，并提供了多种使用方式，包括：Jupyter Notebook、ssh、服务本地端口映射和grafana监控，全方位的为用户提供便捷的开发体验。
同时，还为用户预制了含有ColossalAI代码仓库和运行环境的docker镜像，用户无需环境和资源配置，便可一键运行ColossalAI代码仓库中的代码样例。
Colossal-AI开源地址：https://github.com/hpcaitech/ColossalAI
参考资料：
https://hpc-ai.com/blog/Colossal-AI-SwiftInfer
人工智能产业链联盟高端社区

相关阅读
【碳中和】珍藏版！22个国内外“碳中和”相关报告合集！
【工业机器人】全球工业机器人详细产业链梳理！
【智能制造】智能制造50大产业链全景图
【智能工厂】智能工厂如何快速落地
【工业技术】航空制造推动新概念机器人发展（上）
【工业技术】航空制造推动新概念机器人发展（下）
【新基建+人工智能生态】全网最火“新基建”生态图谱—人工智能篇（含40个细分领域厂商）
【AI】一文读懂人脸识别技术
【AI】解析 | 人工智能发展及技术架构
【报告】中国人工智能厂商全景报告（附PDF下载）
【AI】（收藏）从 A-Z 全面盘点人工智能专业术语梳理！
【AI】计算机视觉入门大全：基础概念、运行原理、应用案例详解
【AI】一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别
【智能仓储】一文带你彻底搞懂智能仓储！
【深度学习】12张高清思维导图，总结深度学习
【神经网络】给初学者们讲解人工神经网络（ANN）
人工智能的基础--知识分类
【AI产业链】120图勾勒全球AI产业完整图谱!
【AI】一文读懂人工智能产业链
【AI】中国人脸识别产业链全景图！
【AI】史上最全的人工智能（AI）产业链地图！
【芯片】国产芯片大全：70个细分领域代表企业
人工智能产业链深度透析—基础层
人工智能产业链深度透析-技术层
人工智能全产业链深度透析--（综合）
人工智能产业链深度透析—产业应用医疗篇
朱松纯 | 人工智能的现状、任务、构架与统一（上）
朱松纯 | 人工智能的现状、任务、构架与统一（中）
朱松纯 | 人工智能的现状、任务、构架与统一（下）
【AI】美国国家人工智能研发战略规划2019
【智慧农业】2018中国农牧家禽行业智慧养殖白皮书
【智慧农业】2019年智慧农业市场调研及前景研究报告（附PDF下载）
【智能家居】我国智能锁产业现状及未来发展趋势分析
【知识图谱】详解知识图谱关键技术与应用、AI图谱技术在知乎的应用实践、如何构建多快好省的“知识图谱即服务”
荐：
【中国风动漫】《姜子牙》刷屏背后，藏着中国动画100年内幕
【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！
【中国风动漫】《雾山五行》大火，却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折！

声明
免责声明：部分文章和信息来源于互联网，不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题，请立即与小编联系（微信号：913572853），我们将迅速采取适当的措施。本订阅号原创内容，转载需授权，并注明作者和出处。如需投稿请与小助理联系（微信号：AI480908961）
编辑：Zero