近日,广和通AI研究院取得关键技术突破,自研端侧长文本缓存管理技术FiboCache面向大模型推理中的缓存膨胀、内存受限、端侧部署效率低等业界难题,在有限缓存占用下支撑16K+上下文稳定推理,为端侧设备处理长文档、多轮交互及复杂任务提供核心支撑。
长文档理解、代码分析和多轮交互,正成为AI演进的重要方向。大模型能够参考的信息越完整,对复杂任务的理解、判断和执行也越可靠。
在实际应用中,信息长度直接影响任务效果。上下文不足时,对话记忆快速衰减,模型输出容易停留在片段总结和局部判断,难以支撑复杂业务流程。
在云端,这一问题可以依托服务器算力和大显存持续缓解。但在端侧,终端设备受到内存、功耗、成本和散热等限制,长文本处理难度显著提升。
随着输入信息不断增加,模型推理过程中用于保存中间状态的KV缓存会快速膨胀,带来时延上升、资源占用增加和运行稳定性下降。
如何让设备在有限资源中持续、稳定、低成本地处理大量信息,成为端侧长文本处理的关键挑战。
FiboCache是广和通AI研究院自研的端侧长文本缓存管理技术,能够在有限缓存条件下,让端侧设备处理更大规模的信息输入。
该技术面向端侧静态图推理环境设计,可在推理过程中对历史信息进行高效管理,自动识别和保留与当前任务相关性更高的关键Token,减少低价值信息对缓存空间的占用。
在实际部署中,FiboCache可在约4K级缓存占用下支撑16K至32K级上下文推理,在显著降低资源占用的同时保持生成质量稳定。
同时,该技术面向主流大语言模型架构设计,不绑定单一模型或单一芯片平台,可作为Fibocom AI Stack使能平台的通用能力,赋能各类终端落地端侧 AI。
基于FiboCache,广和通AI Stack解决方案可进一步覆盖更复杂的信息处理场景。
在AI会议机场景中,设备可在本地处理更长会议转写内容,完成纪要生成与重点总结,帮助用户从海量会议文本中提炼关键洞见,并实现数据本地驻留。
在AI陪伴、智能座舱和家用AI助手场景中,终端可保留历史对话与用户偏好,让交互更连贯,个性化角色设定更稳定。
在广和通龙虾智算盒等端侧AI设备中,FiboCache可支撑长文档摘要、复杂知识问答、多轮任务规划与本地化执行,帮助企业和行业客户在边缘侧部署更复杂的AI应用。
面向智慧工业与IoT场景,边缘设备可本地处理长周期设备日志、连续巡检记录和多源告警信息,完成故障排查、异常定位和预测性维护分析,提升现场响应效率。
FiboCache的突破,进一步补齐了广和通在端侧推理中的关键能力,为AI的深度应用提供坚实支撑。
围绕前沿模型适配、长文本处理等方向,广和通AI研究院将持续推进端侧AI技术创新,加速大模型能力向终端设备与业务场景落地,助力千行百业迈向万物智联的AI时代。