论文部分内容阅读
将一辆黄色出租车和一副双筒望远镜区别开是很容易的,大多数人哪怕倒立时都能做到这一点。但对于人工智能(AI)可不是这样:把出租车翻过来,它就会将之认作双筒望远镜。
这只是美国人工智能专家阮安收集到的几十个例子中的一个,这些例子表明AI识别物体的本领比我们想象的要差远了。这让我们对AI在某些领域的应用(如无人驾驶汽车)更加谨慎。
图像识别是人工智能的一个重要领域。对于人来说,识别图像并不是一件难事。我们通常是依靠图像本身所具有的特征来将它们识别出来的。每个图像都有它的特征,如字母A有个尖,P有个圈,而Y的中心有个锐角等。研究表明,当我们识别一个图像时,视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方——这些地方的信息量最大。如果图像有多个特征,眼睛的扫描路线也总是依次从一个特征转到另一个特征上。
由此可见,在我们识别图像的过程中,知觉必须排除多余的输入信息,只抽取出关键的信息。然后将这些关键信息进行分门别类,存储在记忆中。当下次遇到类似图像时,将陌生图像中的关键信息提取出来,与存储在记忆中的信息进行比较,从而将其识别出来。依据这种办法,我们不仅能识别某个具体的字母A,也能识别印刷体的、手写体的、方向不正的(甚至倒立过来)、大小不同的各种字母A。
但是,当前的AI图像识别技术还远远达不到人类的水平。它们更多地依赖模式识别。
所谓模式识别,就是说识别某个图像,必须在过去的经验中有这个图像的记忆模式(又叫模板)。当前的图像如果能与记忆中的模板相匹配,这个图像就能被识别。例如有一个字母A,如果在记忆中有个A模板,字母A的大小、方位、形状都与这个A模板完全一致,字母A就被识别了。这种方法强调图像必须与记忆中的模板完全符合才能加以识别。
这就怪不得AI经常会被人为篡改的图片迷惑。比如,将图片上的一只乌龟配上特殊的外壳之后,并不影响人类的基本判断,但AI却很容易将其误认为是一把枪。
然而,这还好说。这些图像毕竟是专门设计用来迷惑AI的,它们在现实中不太可能存在,现在问题严重的是,你几乎不需要专为AI篡改一个图象,就足以引起它混乱。
阮安和他的同事从一个用来训练AI的数据库中选择了一些常见物体的图像,然后随机旋转并改变物体在图片中的位置。他们发现,这足以难倒目前世界上最先进的几个图像识别系统,所有系统平均97%的时间里都识别错了。在一个案例中,原始图像是一辆校车,所有图像识别系统能正确识别。但是,把图像特写放大之后,却被它们误认为是一只口袋;当图像被倒置着立在道路上时,又被它们误认作是一辆铲雪机。
這是因为AI的图像识别本领是通过大数据训练出来的,但当初接受训练的时候,在海量的图片里,物体很少有倒立或放大的。
这种状况向我们提出了一个重要问题:使用AI是否安全?
比如在战场或者地震现场,你希望图像识别系统能从多个不同角度识别物体。同样,基于AI的机场安检扫描仪也需要能够从多个角度识别行李中的物体。
对于无人驾驶汽车,这个问题尤其关键。对一辆车来说,当遇到一个不能识别的物体,避开就行了。但是,假如把前方路上的一个可乐罐误认作消防车而紧急刹车,那就很危险。
遗憾的是,迄今没有人知道该如何解决这些问题。最大的障碍是,当AI看到一个图像时,它还无法抽取出有关该对象的关键信息,或者分不清什么是关键信息,什么是次要信息。
所以,为了达到人类的推理水平,我们还需要赋予AI一种能从图像中抽取关键信息的本领。
这只是美国人工智能专家阮安收集到的几十个例子中的一个,这些例子表明AI识别物体的本领比我们想象的要差远了。这让我们对AI在某些领域的应用(如无人驾驶汽车)更加谨慎。
人类是如何识别图像的?
图像识别是人工智能的一个重要领域。对于人来说,识别图像并不是一件难事。我们通常是依靠图像本身所具有的特征来将它们识别出来的。每个图像都有它的特征,如字母A有个尖,P有个圈,而Y的中心有个锐角等。研究表明,当我们识别一个图像时,视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方——这些地方的信息量最大。如果图像有多个特征,眼睛的扫描路线也总是依次从一个特征转到另一个特征上。
由此可见,在我们识别图像的过程中,知觉必须排除多余的输入信息,只抽取出关键的信息。然后将这些关键信息进行分门别类,存储在记忆中。当下次遇到类似图像时,将陌生图像中的关键信息提取出来,与存储在记忆中的信息进行比较,从而将其识别出来。依据这种办法,我们不仅能识别某个具体的字母A,也能识别印刷体的、手写体的、方向不正的(甚至倒立过来)、大小不同的各种字母A。
AI产生错觉的原因
但是,当前的AI图像识别技术还远远达不到人类的水平。它们更多地依赖模式识别。
所谓模式识别,就是说识别某个图像,必须在过去的经验中有这个图像的记忆模式(又叫模板)。当前的图像如果能与记忆中的模板相匹配,这个图像就能被识别。例如有一个字母A,如果在记忆中有个A模板,字母A的大小、方位、形状都与这个A模板完全一致,字母A就被识别了。这种方法强调图像必须与记忆中的模板完全符合才能加以识别。
这就怪不得AI经常会被人为篡改的图片迷惑。比如,将图片上的一只乌龟配上特殊的外壳之后,并不影响人类的基本判断,但AI却很容易将其误认为是一把枪。
然而,这还好说。这些图像毕竟是专门设计用来迷惑AI的,它们在现实中不太可能存在,现在问题严重的是,你几乎不需要专为AI篡改一个图象,就足以引起它混乱。
阮安和他的同事从一个用来训练AI的数据库中选择了一些常见物体的图像,然后随机旋转并改变物体在图片中的位置。他们发现,这足以难倒目前世界上最先进的几个图像识别系统,所有系统平均97%的时间里都识别错了。在一个案例中,原始图像是一辆校车,所有图像识别系统能正确识别。但是,把图像特写放大之后,却被它们误认为是一只口袋;当图像被倒置着立在道路上时,又被它们误认作是一辆铲雪机。
這是因为AI的图像识别本领是通过大数据训练出来的,但当初接受训练的时候,在海量的图片里,物体很少有倒立或放大的。
让AI向人类靠齐
这种状况向我们提出了一个重要问题:使用AI是否安全?
比如在战场或者地震现场,你希望图像识别系统能从多个不同角度识别物体。同样,基于AI的机场安检扫描仪也需要能够从多个角度识别行李中的物体。
对于无人驾驶汽车,这个问题尤其关键。对一辆车来说,当遇到一个不能识别的物体,避开就行了。但是,假如把前方路上的一个可乐罐误认作消防车而紧急刹车,那就很危险。
遗憾的是,迄今没有人知道该如何解决这些问题。最大的障碍是,当AI看到一个图像时,它还无法抽取出有关该对象的关键信息,或者分不清什么是关键信息,什么是次要信息。
所以,为了达到人类的推理水平,我们还需要赋予AI一种能从图像中抽取关键信息的本领。