当前位置:首页 行业动态 正文

Meta的AI模型ImageBind为AI扩展亲的方向

2023-05-11

最近, Meta公司宣布开放了一套全新的人工智能模型 ImageBind,该模型可以实现6个模态的融合,包括视觉(图像),温度(红外),文字,音频,深度信息,以及运动数据。现在,相关的源码已经存放在 GitHub上了。


正如 Meta研究小组指出的那样, ImageBind开启了一扇门,让人们沉浸式地体验虚拟世界。研究团队还表示,在未来,他们还会加入触觉、语音、嗅觉以及脑功能磁共振信号,以进一步探索多模态大模型的可能性。


此外, Meta公司还指出,通过DINOv2的强大可视化功能, ImageBind还能得到进一步的提升。DINOv2是 Meta为计算机视觉提供的一种预训练大模型,它与 Meta对元宇宙的愿景也有着千丝万缕的联系, Meta首席执行官扎克伯格曾经强调过,DINOv2将对元宇宙的构建起到巨大的推动作用,提升用户的沉浸感。


也就是以视觉为中心,实现了6种模式之间的任意理解与转换。Meta给出了一些例子,比如听狗叫画狗,并给出相应的深度图以及文字说明;比如输入一幅鸟的画面+一幅海浪声,就可以得到一幅鸟在海边的画面。


然而,以往的多模态人工智能模型往往只支持一到二个模态,且不同模态间的交互与检索困难。Meta公司表示, ImageBind是世界上首个可以同时处理六类感知数据的人工智能模型,并首次实现了无监督学习。


ImageBind之所以能够做到这一点,是因为它将所有的模态数据都放在一个统一的嵌入空间中,而不需要每一个模态的组合来训练数据。


首先,本项目拟利用最新的大尺度视觉语言模型,利用其零样本能力,将其与视频-音频、图像-深度等自然图像配对,学习出一个联合的嵌入空间。


在对图像/视频进行训练之后, ImageBind就会展现出涌现的能力,将声音、热能等与原始数据无关的模态自动连接在一起。


虽然 ImageBind目前还只是一个研究项目,还没有直接面向用户或者应用程序。但可以预见的是,随着图像绑定模型的不断完善,人工智能的应用场景将会得到进一步的拓展,元宇宙的构建也会得到进一步的完善。


比如,将 ImageBind与虚拟现实设备结合在一起,可以让玩家获得更加身临其境的体验,让玩家不仅能够感受到游戏中的温度,还能够感受到游戏中的物体在运动。