技术攻坚！广和通突破端侧LLM长上下文限制

近日，广和通AI研究院取得关键技术突破，自研端侧长文本缓存管理技术FiboCache面向大模型推理中的缓存膨胀、内存受限、端侧部署效率低等业界难题，在有限缓存占用下支撑16K+上下文稳定推理，为端侧设备处理长文档、多轮交互及复杂任务提供核心支撑。

技术攻坚！广和通突破端侧LLM长上下文限制-图1

AI要走向复杂任务，先要“理解得更完整”

长文档理解、代码分析和多轮交互，正成为AI演进的重要方向。大模型能够参考的信息越完整，对复杂任务的理解、判断和执行也越可靠。

在实际应用中，信息长度直接影响任务效果。上下文不足时，对话记忆快速衰减，模型输出容易停留在片段总结和局部判断，难以支撑复杂业务流程。

技术攻坚！广和通突破端侧LLM长上下文限制-图2

在云端，这一问题可以依托服务器算力和大显存持续缓解。但在端侧，终端设备受到内存、功耗、成本和散热等限制，长文本处理难度显著提升。

随着输入信息不断增加，模型推理过程中用于保存中间状态的KV缓存会快速膨胀，带来时延上升、资源占用增加和运行稳定性下降。

如何让设备在有限资源中持续、稳定、低成本地处理大量信息，成为端侧长文本处理的关键挑战。

FiboCache是广和通AI研究院自研的端侧长文本缓存管理技术，能够在有限缓存条件下，让端侧设备处理更大规模的信息输入。

该技术面向端侧静态图推理环境设计，可在推理过程中对历史信息进行高效管理，自动识别和保留与当前任务相关性更高的关键Token，减少低价值信息对缓存空间的占用。

在实际部署中，FiboCache可在约4K级缓存占用下支撑16K至32K级上下文推理，在显著降低资源占用的同时保持生成质量稳定。

技术攻坚！广和通突破端侧LLM长上下文限制-图3

同时，该技术面向主流大语言模型架构设计，不绑定单一模型或单一芯片平台，可作为Fibocom AI Stack使能平台的通用能力，赋能各类终端落地端侧 AI。

基于FiboCache，广和通AI Stack解决方案可进一步覆盖更复杂的信息处理场景。

在AI会议机场景中，设备可在本地处理更长会议转写内容，完成纪要生成与重点总结，帮助用户从海量会议文本中提炼关键洞见，并实现数据本地驻留。

技术攻坚！广和通突破端侧LLM长上下文限制-AI会议机场景

在AI陪伴、智能座舱和家用AI助手场景中，终端可保留历史对话与用户偏好，让交互更连贯，个性化角色设定更稳定。

技术攻坚！广和通突破端侧LLM长上下文限制-AI陪伴、智能座舱和家用AI助手场景

在广和通龙虾智算盒等端侧AI设备中，FiboCache可支撑长文档摘要、复杂知识问答、多轮任务规划与本地化执行，帮助企业和行业客户在边缘侧部署更复杂的AI应用。

技术攻坚！广和通突破端侧LLM长上下文限制-广和通龙虾智算盒

面向智慧工业与IoT场景，边缘设备可本地处理长周期设备日志、连续巡检记录和多源告警信息，完成故障排查、异常定位和预测性维护分析，提升现场响应效率。

技术攻坚！广和通突破端侧LLM长上下文限制-智慧工业与IoT场景

FiboCache的突破，进一步补齐了广和通在端侧推理中的关键能力，为AI的深度应用提供坚实支撑。

围绕前沿模型适配、长文本处理等方向，广和通AI研究院将持续推进端侧AI技术创新，加速大模型能力向终端设备与业务场景落地，助力千行百业迈向万物智联的AI时代。