还记得这张把谷歌 AI 搞得团团转的经典梗图吗?
现在,微软亚研院的新 AI 可算是把它研究明白了。拿着这张图问它图里有啥,它会回答:我看着像鸭子。
(相关资料图)
但如果你试图跟它 battle,它就会改口:看上去更像兔子。并且还解释得条条是道:
图里有兔子耳朵。
是不是有点能看得懂图的 ChatGPT 内味儿了?这个新 AI 名叫 Kosmos-1,谐音 Cosmos(宇宙)。AI 如其名,本事确实不小:图文理解、文本生成、OCR、对话 QA 都不在话下。
甚至连瑞文智商测试题都 hold 住了。
而具备如此能力的关键,就写在论文的标题里:Language is not all you need。多模态大语言模型
简单来说,Kosmos-1 是一种把视觉和大语言模型结合起来的多模态大语言模型。
在感知图片、文字等不同模态输入的同时,Kosmos-1 还能够根据人类给出的指令,以自回归的方式,学习上下文并生成回答。
研究人员表示,在多模态语料库上从头训练,不经过微调,这个 AI 就能在语言理解、生成、图像理解、OCR、多模态对话等多种任务上有出色表现。
比如甩出一张猫猫图,问它这照片好玩在哪里,Kosmos-1 就能给你分析:猫猫戴上了一个微笑面具,看上去就像在笑。
又比如让它看一眼 MSRA 用来高效训练大模型的 TorchScale 工具包的主页,Kosmos-1 也能快速 get 这个库是用来干啥的。Kosmos-1 还能理解图像上下文。发一张食物的照片给它,这个 AI 不仅能回答你这是什么,还能在你追问如何烹饪时,给出食谱和烹调小建议。Kosmos-1 的骨干网络,是一个基于 Transformer 的因果语言模型。Transformer 解码器作为通用接口,用于多模态输入。用于训练的数据来自多模态语料库,包括单模态数据(如文本)、跨模态配对数据(图像 - 文本对)和交错的多模态数据。
值得一提的是,虽说 "Language is not all you need",但为了让 Kosmos-1 更能读懂人类的指示,在训练时,研究人员还是专门对其进行了仅使用语言数据的指令调整。
具体而言,就是用(指令,输入,输出)格式的指令数据继续训练模型。
实验结果
研究人员在 5 大类共 10 个任务中,测试了 Kosmos-1 的效果,包括:
语言任务:语言理解、语言生成、无 OCR 文本分类
跨模态迁移:常识推理
非语言推理:IQ 测试(瑞文递进矩阵)
感知 - 语言任务:图像说明、视觉 QA、网页 QA
视觉任务:零样本图像分类、带描述的零样本图像分类
从实验结果上来看,Kosmos-1 基本都 hold 住了。
零样本图像说明:
零样本视觉 QA:无 OCR 文本理解:研究人员还提到,Kosmos-1 是第一个能完成零样本瑞文智商测试的 AI。不过,跟成年人类的平均水平相比,AI 的 " 智商 " 还差得有点远。随机选择的正确率为 17%,而 Kosmos-1 经过指令调教之后,准确率为 26%。研究人员认为:但 Kosmos-1 证明了多模态大模型有潜力将感知和语言结合起来,进行零样本的非语言推理。
另外,研究人员还展示了 Kosmos-1 处理复杂问答和推理任务的过程。关键在于多模态思维链提示。
研究人员将感知 - 语言任务分解为两个步骤。第一步,给定一个图像,引导模型对图像进行分析。
第二步,把模型子集分析出来的结果再喂给它,并给出任务提示,以生成最后的答案。
这项新研究来自 MSRA 的韦福如团队。韦福如是微软亚洲研究院自然语言计算研究组主管研究员。三位一作分别是 Shaohan Huang、董力和 Wenhui Wang。
论文地址:
https://arxiv.org/abs/2302.14045
X 关闭
2023-09-09 14:19:31
2023-09-09 11:59:09
2023-09-09 10:36:21
2023-09-09 08:48:56
2023-09-09 07:04:59
2023-09-09 02:44:09
2023-09-08 21:57:33
2023-09-08 18:55:44
2023-09-08 17:34:41
2023-09-08 16:41:31
2023-09-08 15:23:20
2023-09-08 14:04:10
2023-09-08 12:58:36
2023-09-08 11:51:20
2023-09-08 10:44:21
2023-09-08 10:13:52
2023-09-01 10:45:46
2023-09-01 09:52:45
2023-09-01 08:09:14
2023-09-01 06:05:16
2023-09-01 02:12:58
2023-08-31 22:05:08
2023-08-31 20:33:04
2023-08-31 18:56:53
2023-08-31 17:48:23
2023-08-31 16:56:45
2023-08-31 15:57:59
2023-08-31 14:13:27
2023-08-31 12:54:30
2023-08-31 11:53:58
2023-08-31 10:13:11
2023-08-31 09:49:17
2023-08-31 08:31:53
2023-08-31 07:08:37
2023-08-31 04:39:57
2023-08-30 23:04:51
2023-08-30 21:23:00
2023-08-30 18:53:33
2023-08-30 17:35:13
2023-08-30 16:18:50
2023-08-30 15:23:29
2023-08-30 14:12:59
2023-08-30 12:50:49
2023-08-30 11:19:00
2023-08-30 09:54:25
2023-08-30 09:01:57
2023-08-30 07:56:49
2023-08-30 06:17:07
2023-08-30 02:10:55
2023-08-29 20:59:27
2023-08-29 19:03:45
2023-08-29 17:59:31
2023-08-29 15:06:46
2023-08-29 13:36:59
2023-08-29 11:42:29
2023-08-29 09:41:58
2023-08-29 08:48:30
2023-08-29 07:19:28
2023-08-29 04:55:20
2023-08-28 23:00:14
2023-08-28 19:46:14
2023-08-28 18:02:53
2023-08-28 16:52:39
2023-08-28 15:19:53
2023-08-28 12:42:48
2023-08-28 11:02:11
2023-08-28 08:54:27
2023-08-28 07:08:40
2023-08-28 00:48:32
2023-08-27 21:02:36
2023-08-27 19:06:51
2023-08-27 16:58:02
2023-08-27 14:51:35
2023-08-27 11:31:48
2023-08-27 09:48:18
2023-08-27 07:59:18
2023-08-27 03:42:53
2023-08-26 21:52:51
2023-08-26 19:31:13
2023-08-26 17:10:28
2023-08-26 15:21:10
2023-08-26 13:14:01
2023-08-26 11:07:50
2023-08-26 08:52:21
2023-08-26 06:48:44
2023-08-26 03:21:21
2023-08-25 22:42:52
2023-08-25 20:47:17
2023-08-25 19:12:50
2023-08-25 17:51:04
2023-08-25 16:16:54
2023-08-25 14:50:01
2023-08-25 13:16:08
2023-08-25 11:44:06
2023-08-25 10:15:45
2023-08-25 09:12:59
2023-08-25 07:58:31
2023-08-25 05:55:29
2023-08-25 01:00:37
2023-08-24 21:53:45
Copyright © 2015-2022 华尔街化工网版权所有 备案号:沪ICP备2022005074号-44 联系邮箱:58 55 97 3@qq.com