/ 资讯中心 / 新闻中心 / 技术攻坚!广和通突破端侧LLM长上下文限制


技术攻坚!广和通突破端侧LLM长上下文限制

近日,广和通AI研究院取得关键技术突破,自研端侧长文本缓存管理技术FiboCache面向大模型推理中的缓存膨胀、内存受限、端侧部署效率低等业界难题,在有限缓存占用下支撑16K+上下文稳定推理,为端侧设备处理长文档、多轮交互及复杂任务提供核心支撑。

技术攻坚!广和通突破端侧LLM长上下文限制-图1

AI要走向复杂任务,先要“理解得更完整”

长文档理解、代码分析和多轮交互,正成为AI演进的重要方向。大模型能够参考的信息越完整,对复杂任务的理解、判断和执行也越可靠。

在实际应用中,信息长度直接影响任务效果。上下文不足时,对话记忆快速衰减,模型输出容易停留在片段总结和局部判断,难以支撑复杂业务流程。

技术攻坚!广和通突破端侧LLM长上下文限制-图2

在云端,这一问题可以依托服务器算力和大显存持续缓解。但在端侧,终端设备受到内存、功耗、成本和散热等限制,长文本处理难度显著提升。

随着输入信息不断增加,模型推理过程中用于保存中间状态的KV缓存会快速膨胀,带来时延上升、资源占用增加和运行稳定性下降。

如何让设备在有限资源中持续、稳定、低成本地处理大量信息,成为端侧长文本处理的关键挑战。

有限缓存,跑出更强理解力

FiboCache是广和通AI研究院自研的端侧长文本缓存管理技术,能够在有限缓存条件下,让端侧设备处理更大规模的信息输入。

该技术面向端侧静态图推理环境设计,可在推理过程中对历史信息进行高效管理,自动识别和保留与当前任务相关性更高的关键Token,减少低价值信息对缓存空间的占用。

在实际部署中,FiboCache可在约4K级缓存占用下支撑16K至32K级上下文推理,在显著降低资源占用的同时保持生成质量稳定。

技术攻坚!广和通突破端侧LLM长上下文限制-图3

同时,该技术面向主流大语言模型架构设计,不绑定单一模型或单一芯片平台,可作为Fibocom AI Stack使能平台的通用能力,赋能各类终端落地端侧 AI。

真实场景落地,让端侧AI真正处理“超大信息量”

基于FiboCache,广和通AI Stack解决方案可进一步覆盖更复杂的信息处理场景。

在AI会议机场景中,设备可在本地处理更长会议转写内容,完成纪要生成与重点总结,帮助用户从海量会议文本中提炼关键洞见,并实现数据本地驻留。

技术攻坚!广和通突破端侧LLM长上下文限制-AI会议机场景

在AI陪伴、智能座舱和家用AI助手场景中,终端可保留历史对话与用户偏好,让交互更连贯,个性化角色设定更稳定。

技术攻坚!广和通突破端侧LLM长上下文限制-AI陪伴、智能座舱和家用AI助手场景

在广和通龙虾智算盒等端侧AI设备中,FiboCache可支撑长文档摘要、复杂知识问答、多轮任务规划与本地化执行,帮助企业和行业客户在边缘侧部署更复杂的AI应用。

技术攻坚!广和通突破端侧LLM长上下文限制-广和通龙虾智算盒

面向智慧工业与IoT场景,边缘设备可本地处理长周期设备日志、连续巡检记录和多源告警信息,完成故障排查、异常定位和预测性维护分析,提升现场响应效率。

技术攻坚!广和通突破端侧LLM长上下文限制-智慧工业与IoT场景

底层能力突破,夯实端侧AI技术底座

FiboCache的突破,进一步补齐了广和通在端侧推理中的关键能力,为AI的深度应用提供坚实支撑。

围绕前沿模型适配、长文本处理等方向,广和通AI研究院将持续推进端侧AI技术创新,加速大模型能力向终端设备与业务场景落地,助力千行百业迈向万物智联的AI时代。

相关话题: 端侧AI解决方案
注册账号
已有账号,立即登录
fsicon.png
已把文档发送到您注册的邮箱3150103329@qq.com请注意查收,谢谢!
fsicon02.png
您已预约成功,已把具体信息发送到您的邮箱3150103329@qq.com感谢您的信任!
20200520175738392.jpg
点击购买

嘿,这儿!👋 今天需要帮忙吗?