论坛 | ChatGPT背后的多模态感知--中国能源新闻网

论坛 | ChatGPT背后的多模态感知

来源：《能源评论》时间：2023-09-06 16:49

　　人工智能（AI）的范畴很大，包括视觉识别、语音识别、物体检测、文本创作、大数据挖掘、机器人等，近期爆火的ChatGPT就是语言智能的代表。

　　神经科学里有一个非常基础的现象——重入（Reentry），直观的解释是，大脑里不同的分区分别承担不同的功能，有的分区完成记忆，有的分区感知触觉，有的分区感受情绪，有的分区负责运动，等等。对于神经科学来说，感知与其他体验一样，可以用神经元群组的活动来解释，这些神经元群组通过重入过程构成了极为复杂的内核，而这正是人主观体验的基础。

　　人对外部世界的感知和理解就是通过多模态联动来实现的。比如要理解“苹果”这个概念，人是通过看、触、吃等一系列感受，多方信息综合判定它就是苹果。多模态的信息交互可以达到“1+1>2”的效果，使我们得到的信息更加立体。

　　AI领域里关于多模态的研究已进行多时，但过去几十年，各模态研究彼此分离，每个方向均有自己的模型。最近几年，越来越多的研究人员着手构建统一、跨场景、多任务的多模态基础模型。

跨过语言鸿沟

　　视觉和语言是非常核心的两个模态。视觉与语言的跨模态生成，首先在学术上就具有非常重要的意义。借用物理学家、诺贝尔奖获得者理查德·费曼的一句话：如果一个东西，我们不能创造它，我们就没有理解它。这句话体现出创造、生成的重要意义。

　　人类感知世界，70%~80%的信息由视觉通路处理。语言则是人类进化到高级智能的体现，是我们对外部世界概念抽象的表达，是人类交互最重要的手段。

　　视觉和语言的跨模态生成是一个双向过程。从图到文，典型的例子是看图说话、看图写作。从文到图，就是通过一句话来创作一幅图。

　　视觉生成语言通路在安全、互联网领域应用较多，如互联网音视频的监测管理，可以借助智能算法浏览一段视频或者浏览海量视频处理文本摘要，可以对监控系统的监控录像做智能分析。语言生成视频通路应用也很广泛，比如在刑侦领域，根据文本描述生成嫌疑人画像；在艺术创作领域，根据人的描述、指令进行智能化图片编辑，尤其是交互式编辑目前已经催生了很多行业的变革。

　　虽然视觉和语言的跨模态生成应用场景广阔，但视觉和语言毕竟是两种完全不同的模态，在跨模态生成方面存在很大的难点。以一张图片为例，大多数人首先看到的会是一个人在大街上骑着一辆摩托车，但除了人、摩托、道路，这张图还包含非常多的其他信息，如马路的材质、远处的景物等等，视觉元素非常丰富。所以，从图片看信息，信息密度相对低一些。对语言来讲，每句话、每个词都富含语义，信息密度相对较高。因此，跨模态研究中存在的非常重要的核心问题，就是跨模态的语言鸿沟。

多模态是趋势

OpenAI成立时间不长，被微软收购后做出了一系列非常有震撼力和影响力的产品，比如2021年年初发布的Dall-E，这是一款图像生成系统，做出的图片可以达到以假乱真的效果。借助Dall-E，我们可以描述物体的形状、颜色、纹理，或者通过修改语言描述里面的一些单词对图像进行编辑。2022年，升级后的Dall-E性能大幅提升，模型生成的图像分辨率尺度更高，生成的结果也更加贴切，交互性更强。交互性的主要体现是可以通过修改文本继而修改图像。

　　除了OpenAI，其他科技公司也推出了类似的产品。谷歌在2022年5月推出了Imagen模型，近期亦发布了几个Imagen应用，比如生成特定领域的图像和视频更加精细，视频处理效果也很好。清华大学和北京智源人工智能研究院联合推出的CogView，也是一个多模态生成模型。

　　通过文本生成图像的模型是基础模型，现在的趋势是把大模型做得越来越精细化，以面向实际当中更具挑战性的场景，用于零样本识别、小样本识别。OpenAI于2021年1月发布的CLIP（Contrastive Language-Image Pretraining）模型是这个领域的代表。常规识别在ImageNet（深度学习领域中图像分类、检索、定位最常用的数据集之一）准确率上有了很大提升，大模型最主要的功能是通用性，在CLIP模型之后，几家大型科技公司面向下游任务时往往需要对大模型进行改造和适配，比如应用于电力领域时，可以在通用的模型里面引入专家知识，让模型更加智能、更加专业。

　　研究人员在CLIP模型基础上，又开发出四个代表性的大模型。

　　第一个是微软发布的Florence模型，它扩展了大模型的表征能力，精细化程度更高，从图像扩展到了视频，从单一的RGB（图片）扩展到多模态，取得了当前最优的结果。

　　第二个是谷歌的CoCa（Contrastive Captioner）模型，它结合了对比学习和生成式学习，可用于离岸任务，包括检索、看图说话和视觉问答，同时在多个下游任务上取得了好的结果。

　　第三个是谷歌旗下创业团队发布的DeepMind，除了常规的视觉、语言描述任务外，还可以运行强化学习的游戏，包括聊天、堆积木等交互性强的任务，根据上下文决定输出的结果。

　　第四个是Flamingo模型，主要针对小样本。比如，在电力行业或者其他传统行业中，很多场景在多数时间是常规情况，异常行为、异常模式发生就是典型的小样本，也就是异常情况数据很少。大模型如何用到这种场景，是人工智能和机器学习面临的非常典型的挑战。

大模型研究尚需破解三大难题

　　十年前，大众普遍认为AI会首先取代体力劳动者，再取代脑力劳动者，如今AI的发展也刷新了我们的认知，比如OpenAI的CEO 山姆·奥特曼就认为，AI有望率先取代艺术家。

　　视觉生成模型近年来发展迅速，在模型上面出现了扩张模型。扩张模型也是最近两年爆火的产品，把图像生成的效果和精美程度提高到更高的级别。大模型生成的图像在纹理、细节上看起来很逼真，但在逻辑、常识方面还有欠缺，易出现一些低级错误。目前大模型研究急需攻克以下三个问题。

　　第一是语言和语义的鸿沟。这涉及两个空间多尺度、多粒度概念的对齐。大模型通过大量数据积累，目前这个问题已逐步得到解决。

　　第二是纯数据驱动导致的常识缺失。不管是图文生成还是文图生成，可能会出现违背常理的结果。比如“生成人的手，再在手上戴一块手表”，出来的结果看着还不错，但细看手表上出现了6个时针，这就是场景布局的明显失真。

　　第三是不同的专业领域区别甚大，如何把通用的大模型适配到专业的领域，也是研究者在面向垂直应用时需要考虑的问题。（张琴琴根据中国科学院计算技术研究所智能信息处理重点实验室王瑞平研究员录音整理）

　　责任编辑：杨娜

　　校对：高慧君

论坛 | ChatGPT背后的多模态感知

中电专题

热点推荐