大型语言模型“看”世界

来源 :海外星云 | 被引量 : 0次 | 上传用户:zhangkai198610
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  GPT-3自动生成的语言竟然能和人类差不多,堪称奇迹。但在很大程度上,GPT-3也不过是个噱头。判断方法也很简单。若提问GPT-3:羊是什么颜色?它会说“白色”,还会说“黑色”,频次一样高。因为英语里有“black sheep”(黑羊,引申意为害群之马)。
  这就是语言模型的问题。只用文本训练语言模型,会导致模型缺乏常识。不过,为了改变这种状况,北卡罗来纳大学教堂山分校(下文简称UNC)的学者莫希特班萨尔和其博士生谭昊研发了一种新技术,研究人员称其为为“视觉监督”,如此,GPT-3等语言模型便能具备“看”的功能。
  将语言模型与计算机视觉结合起来并不新鲜,该人工智能研究领域其实正在快速发展。出发点是这两种类型都有不同的优势。GPT-3等语言模型通过无监督学习来训练,不需要人工进行数据标注,因此很容易开发出大型模型。而物体识别系统等图像模型更多是在现实世界中学习。换句话说,图像模型并不依赖文本所提供的抽象世界来理解世界。比如,图像模型可以从羊的图片中“看到”,羊其实是白色的。

  能够同时解析语言和视觉输入的人工智能模型用处很大。例如,机器人需要计算机视觉来导航,也需要语言来与人类交流,因此该模型能用于开发机器人。
  但要结合这两种类型,是说起来容易做起来难。并非把现有的语言模型与物体识别系统拼接在一起便大功告成,而是需要从头开始训练新模型。所用数据集要包括文本和图像,也就是所谓的视觉语言数据集。
  要获得这样一个数据集,最常见的方法是做带有描述性标题的图片集。例如,下面这张图片的标题设为“一只橘猫卧在空行李箱里”。这样的图片集便和传统图片数据集不同。后者只用名词来标注图片,比如给下面这张图片只简单地命名为“猫”。因此,视觉语言数据集不仅可以教人工智能模型如何识别对象,还可以教人工智能模型如何根据动词和介词识别不同对象之间的相互关系。

  但如此也意味着,创建数据集会耗费很长时间。因此,现有的视觉语言数据集太单薄了。而常用的纯文本数据集则不同。如英语维基百科,包括了几乎所有英语维基百科条目,有近30亿个单词。而视觉语言数据集 Microsoft Common Objects in Context(下文简称MS COCO)只包含700万个,根本不足以训练一个有用的AI模型。
  有了视觉监督,问题迎刃而解。视觉监督使用无监督学习方法,将MS COCO的数据规模扩展到与英语维基百科相当。视觉语言模型用规模化后的数据集训练后,研究人员使用了一些最难的AI语言理解能力测试对其进行检验。结果模型的表现甚至优于当今最先进的模型。
  自然语言处理初创公司Hugging Face的联合创始人兼首席科学官托马斯沃尔夫说:“要在这些测试中击败最先进的模型,得下大力气。这些测试可不是儿戏。能有这样的结果,真的让人非常激动。”
  我们先理清一些术语。到底什么是“voken”?
  在人工智能领域,用来训练语言模型的词称为token。UNC研究人员便以“voken”,来指代所用视觉语言模型中与任一token相关联的图像。用来匹配token和voken的算法称为vokenizer,整个匹配过程称为“视觉监督”。
  说了这么多,主要是为了帮助大家理解视觉监督的基本理念。UNC研究人员没有拿着图像数据集来手动编写标题,这耗时过长;他们选择了使用语言数据集以及无监督学习法,匹配每个单词与相关图像。如此便很容易规模化。
  此处的无监督学习技术正是此项研究的贡献。那么,究竟如何为每个单词找到关联图像呢?

视觉监督


  先回到GPT-3。GPT-3所属语言模型家族有“变形金刚”之称。2017年,该类模型首次面世,便是将无监督学习应用于自然语言处理取得的重大突破。变形金刚可以观察单词在上下文中的使用,再根据上下文创建每个单词的数学表达式,即“单词嵌入”,以此来学习人类语言模式。例如,代表“猫”的嵌入可能会显示,“喵”和“橙”两字周围,“猫”出现频率高,但在“吠”或“蓝色”周围出现的频率便较低。
  因此,变形金刚猜单词含义的准确度较高,GPT-3也因此能写出仿佛由人所作的句子。变形金刚一定程度上依靠这些嵌入,学习如何将单词组成句子、句子组成段落。
  还有一种类似技术也可以用于处理图像。这种技术不是通过扫描文本来寻找单词使用规律,而是通过扫描图像来寻找视觉规律。比如,该技术将猫出现在床上与出现在树上的频率制成表格,并利用这些上下文信息创建“猫”的嵌入。
  UNC研究人员认为,处理MSCOCO要同时使用这两种嵌入技术。研究人员将图像处理为视觉嵌入,将标题处理为文字嵌入。而这些嵌入妙就妙在能在三维空间中绘制出来,完全可以看到嵌入之間的关系。如果某一视觉嵌入与某一单词嵌入密切相关,绘制出来后位置很接近。换句话说,理论上,代表猫的视觉嵌入应该与代表猫的文字嵌入重合。
  之后的工作也就水到渠成。一旦嵌入都绘制完毕、并相互比较和关联,就很容易开始匹配图像(voken)与文字(token)。而且,由于图像和单词基于原嵌入进行匹配,那么实际也在基于上下文进行匹配。这样,即便一个词可能有多个不同含义也不必担心,该技术能为单词的每个含义找到对应voken。

  这两个例子中的token都是“contact”一词。但在第一个句子中,上下文表明“contact”是联系的意思,所以voken是联系图标。在第二个句子中,上下文表明这个词有触摸的意思,所以voken显示的是一只被抚摸的猫。
  这些利用MSCOCO创建的视觉和单词嵌入,便用来训练算法vokenizer。
  一旦经过训练,vokenizer就能够在英语维基百科中找token的对应voken。虽然该算法只为大约40%的token找到了voken,并不完美,但英语维基百科可是有接近30亿字。
  有了新的数据集后,研究人员重新训练了BERT语言模型。BERT是谷歌开发的开源变形金刚,比GPT-3还要早。然后,研究人员使用六个语言理解测试,测试改进的BERT。语言理解测试中有SQuAD斯坦福回答数据集,该测试要求模型回答基于文章的阅读理解题;还有SWAG测试,该测试利用英语语言的精妙处,检测模型是否只是单纯模仿和记忆。改进的BERT在所有测试里表现都比原来更突出。沃尔夫说,这并不奇怪。
  虽然研究还处于早期阶段,但沃尔夫认为,从在视觉语言模型中利用无监督学习方面看,这项工作是一项重要观念突破。当年,正是类似突破极大推动了自然语言处理的发展。
  沃尔夫说:“在自然语言处理领域,两年多前便有了这一巨大突破,然后突然间自然语言处理领域有了很大发展,开始走在其他AI领域前面。但是把文字和其他事物联系起来还是有很大障碍。就像机器人只能说话,但不会看、不会听。”
  “这篇论文则做到了将文字与另一种模式连接起来,而且效果更好,树立了典范。可以想象,如果要把这种非常强大的语言模型用到机器人上,也许能用到部分新技术。比如,用同样的技术将机器人的感官和文本联系起来。”
  (综合整理报道)(编辑/多洛米)
其他文献
”5、4、3、2、1……“  没有飞机机长会在起飞前给乘客倒计时,但这并非一架普通的飞机。除机组人员外,这架飞机的所有乘员都是科学家。他们已经通过了包括心脏检查在内的全面体检。这不是为普通乘客服务的航班。  “拉起!30度、40度……”  此时,飞机正在做一项复杂而危险的飞行动作,需要驾驶舱内的三名飞行员通力合作才能完成。飞机从平飞状态迅速拉起,爬升角度不断增大,30度,然后40度。在进行零重力飞
我们的肠道含有大约100万亿个微生物,统称为肠道菌群。没有两个人的微生物群是完全相同的,它们和我们出生时从母亲那里的遗传,以及我们的饮食、环境和生活方式有关。  已经确定的是,肠道在我们的身体的许多系统中通过多重机制发挥作用,包括消化系统,控制饥饿和饱腹的感受系统。但现在,研究人员已经开始发现肥胖和苗条的人的微生物群落之间的具体差异,并根据他们的研究成果开发个性化的减肥疗法。  人类基因组中有几百
在办公室等公共场合要注意不要干扰他人  你有没有留意过,生活中有些人总是显得坐立不安、手脚没处放、动作多多。  他们或是双腿不断抖动,没事咬手指甲、玩头发、不断按手中的圆珠笔笔头等。总而言之,就是小动作多多,让人看了有点累。  但是,现在研究人员发现,这些小动作很可能并不是什么坏事。  阿尼博士表示,像抖腿、没事在纸上涂鸦乱画等小动作还可能给人的身心带来潜在的益处。对身心有益?  纽约神经科学家安
《中国绘本故事》  这其实是《纽约客》派驻中国的专栏作家项美丽两本书的集合:《中国故事绘本》和《中国ABC》。读库重新策划,将两本小书合二为一的这本书,它有一个平淡无奇的外封,打开来却让你绝对惊喜。  20世纪三四十年代,项美丽在中国生活了近九年,辗转上海、重庆、北京、香港,是个中国通。《中国故事绘本》是她为自己五岁的女儿所写,向那个生活在美国的小女孩介绍中国,让她了解地球另一面那些同龄的中国孩子
蛋白质,是组成人体一切细胞和组织的重要成分,是生命的物质基础。蛋白质在生物制药领域有着重要的作用,其中许多蛋白质可被用于研发治疗糖尿病、癌症和关节炎等疾病的药物。  但是,人工合成蛋白质是一个十分复杂、耗时的过程,在生物学上,多个氨基酸通过肽键连接形成多肽,多肽经过多级折叠后形成蛋白质。如何快速合成蛋白质?这一问题是近年来科学家一直试图解决的问题。  人工缩短氨基酸之间的连接时间,或许是一个潜在的
在国际空间站(ISS)工作的3名宇航员  新冠肺炎全球蔓延之际,在国际空间站(ISS)工作的3名宇航员任务完成准备回家,结果发现地球跟他们出发前已经大不相同。这前后也就几个月时间。  4月17日格林尼治时间早晨05:16,他们的着陆舱返回地球。打开舱门,外面等候的人都戴着口罩。他们事先已经经过严格隔离,出发搜寻返航着陆舱之前刚刚做了病毒检测,确保没有感染风险。  着陆舱里离开地球时间最长的是美国宇
32 岁,带 7 位博士生,还是最年轻的中国女性得主!她到底有多不简单?27 岁,李博博士毕业后,一个月飞行几十趟,走遍全美 50 多个城市,最终斩获 20 多个录用通知,且均由世界知名大学发来,如伊利诺伊大学香槟分校、马里兰大学、佛罗里达大学等高校。面试一家中一家,妥妥的超级“面霸”。  而李博本次上榜 TR 35 榜单的原因在于,她在对抗机器学习方面,有着出色的研究。同时,她也是全球首批研究对
厄勒海峡大桥  厄勒海峡大桥,全世界很多人对其的了解仅是出现在《边桥迷案》里的那座桥,这部拿下多项大奖的北欧剧集以连接丹瑞两国的大桥为背景,在100多个国家和地区播出,剧情阴郁沉重。  大桥很大。主体重8.2万吨,两座金属桥塔高204米,如果把海底隧道包括在内,大桥跨度达16公里,是欧洲最长的大桥之一。这座大桥连接了丹麦首都哥本哈根和瑞典第三大城市马尔默,无需搭乘漫长的轮渡或航班即可穿过厄勒海峡。
中国远洋海运集团“巴拿马型”集装箱船  世界贸易组织(WTO,下称世贸组织)4月8日在官网发布了《全球贸易数据与展望》报告。报告主要内容是对2020年~2021年全球贸易前景作预测,以及2019年贸易统计数据。报告显示,由于新冠肺炎疫情影响,2020年全球贸易将缩水13%~32%,考虑到“史无前例的”疫情对全球经济影响的不确定性,2020年全球贸易缩水幅度可能超过2008年国际金融危机时的水平。报
邓文迪今夏频频晒出母女合影,举办豪宅派对,因大女儿格蕾丝快19岁了,她脸型圆润,身材一直是微胖界选手,高中毕业于曼哈顿上东区私立女校Brearley School;妹妹克洛伊则刚刚满17岁,苗条纤细,长相更偏向东方。  邓文迪与默多克生下的两个女儿长大成人,靠着前夫好办事,她一直为这对混血小姐妹铺路,长成上流社会名媛,年纪轻轻就是亿万富豪,身家超过百亿人民币。顶配资源  1999年,邓文迪31岁就