当前位置：首页行业动态正文

Meta的AI模型ImageBind为AI扩展亲的方向

2023-05-11

最近， Meta公司宣布开放了一套全新的人工智能模型 ImageBind，该模型可以实现6个模态的融合，包括视觉（图像），温度（红外），文字，音频，深度信息，以及运动数据。现在，相关的源码已经存放在 GitHub上了。

正如 Meta研究小组指出的那样， ImageBind开启了一扇门，让人们沉浸式地体验虚拟世界。研究团队还表示，在未来，他们还会加入触觉、语音、嗅觉以及脑功能磁共振信号，以进一步探索多模态大模型的可能性。

此外， Meta公司还指出，通过DINOv2的强大可视化功能， ImageBind还能得到进一步的提升。DINOv2是 Meta为计算机视觉提供的一种预训练大模型，它与 Meta对元宇宙的愿景也有着千丝万缕的联系， Meta首席执行官扎克伯格曾经强调过，DINOv2将对元宇宙的构建起到巨大的推动作用，提升用户的沉浸感。

也就是以视觉为中心，实现了6种模式之间的任意理解与转换。Meta给出了一些例子，比如听狗叫画狗，并给出相应的深度图以及文字说明；比如输入一幅鸟的画面+一幅海浪声，就可以得到一幅鸟在海边的画面。

然而，以往的多模态人工智能模型往往只支持一到二个模态，且不同模态间的交互与检索困难。Meta公司表示， ImageBind是世界上首个可以同时处理六类感知数据的人工智能模型，并首次实现了无监督学习。

ImageBind之所以能够做到这一点，是因为它将所有的模态数据都放在一个统一的嵌入空间中，而不需要每一个模态的组合来训练数据。

首先，本项目拟利用最新的大尺度视觉语言模型，利用其零样本能力，将其与视频-音频、图像-深度等自然图像配对，学习出一个联合的嵌入空间。

在对图像/视频进行训练之后， ImageBind就会展现出涌现的能力，将声音、热能等与原始数据无关的模态自动连接在一起。

虽然 ImageBind目前还只是一个研究项目，还没有直接面向用户或者应用程序。但可以预见的是，随着图像绑定模型的不断完善，人工智能的应用场景将会得到进一步的拓展，元宇宙的构建也会得到进一步的完善。

比如，将 ImageBind与虚拟现实设备结合在一起，可以让玩家获得更加身临其境的体验，让玩家不仅能够感受到游戏中的温度，还能够感受到游戏中的物体在运动。

欧易OKX(原OKEx)最新网址站

Meta的AI模型ImageBind为AI扩展亲的方向