Memories.ai 推出了其大型视觉记忆模型 2.0 (LVMM 2.0),首次为 AI 系统赋予终端设备端的视觉记忆能力。与此同时,该公司宣布与高通公司达成合作,计划从 2026 年起,让该模型在高通处理器上实现原生运行。这一举措将使消费者和企业能够在设备端安全、快速地搜索和分析视觉瞬间。
视频的痛点:难以高效搜索与分析
大型语言模型 (LLM) 使搜索和分析文本变得极其快速和智能。它使消费者和企业能够搜索数百个不同格式的文档,以快速查找和分析基于文本的信息。视频则不同。它密集、无结构,并且停留在时间轴上。团队仍然会清理数小时的镜头,依赖文件名,或者希望成绩单能够捕捉到眼睛所看到的内容。大多数工具都会索引音频或缩略图,但会遗漏作、对象和上下文。如果没有视觉记忆层,人工智能就无法在框架的海洋中找到或回忆确切的时刻或回答更广泛的问题。
“通过将高通在边缘计算、连接和设备上人工智能方面的专业知识与 Memories.ai 创新的大型视觉内存模型 (LVMM) 相结合,我们正在改变机器感知、学习和记忆的方式,”高通技术公司产品管理副总裁兼生成式人工智能/机器学习负责人 Vinesh Sukumar 表示,“此次合作将使人工智能平台不仅具有响应能力,而且具有上下文感知能力, 能够保留视觉信息,长时间识别模式,即使在网络边缘也能可靠地执行。我们正在共同加快我们的共同目标,即为实际应用提供更智能、更直观的智能“。
解决方案:终端运行大型视觉记忆模型
Memories.ai 的 LVMM 2.0 通过将原始视频转换为设备上的结构化内存来解决这些问题。它对帧进行编码、压缩它们并构建支持亚秒级搜索的索引。用户可以用通俗易懂的语言提出复杂的问题或使用图像提示,然后跳转到确切的时刻。在高通处理器上本地运行可降低延迟、降低云成本并将数据保持在本地以增强安全性。该模型融合了视频、音频和图像,因此结果带有上下文,统一的内存格式使手机、相机和边缘系统之间的体验保持一致。开发者可通过软件开发工具包(SDK)和参考设计添加捕捉、索引和检索功能,无需重新构建后端。随着索引的视频片段增多,LVMM 的召回率和精确度会逐步提升。
LVMM 2.0 的实际应用
AI 相册:在设备上组织和显示个人视频记忆。
智能眼镜和可穿戴设备:显着增强人工智能召回率。
安全代理:帮助摄像头实时理解和响应。
机器人技术:为现实世界中的机器人提供更好的背景和理解
“高通已经证明自己是将人工智能推向边缘的领导者,”Memories.ai 联合创始人兼首席执行官 Shar:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫n Shen 说。“我们很高兴能与他们合作,在未来几年将 LVMM 令人难以置信的强大功能带到数亿部手机、电脑和可穿戴设备中。”
-ky开元