论文部分内容阅读
伍迪·布莱索坐在他开放车库里的轮椅上,等待周日当地经过教堂的人们向他打招呼,这个74岁老人的双颊凹陷了,退化性疾病剥夺了他说话和走路的能力,但是他的头脑还是很敏锐。直到退休前,他一直是得克萨斯大学奥斯汀分校的教授,致力于推动自动推理和人工智能领域的发展。
1950年后期,伍迪有一项工作是研发面部识别技术,并吸引了美国政府的兴趣,实际上伍迪的实验主要出资者似乎正是中央情报局的前身。如今面部识别已成为手机、笔记本电脑、护照和支付应用程序的首选安全功能,提升了人们工作和生活的效率。但在上世纪60年代,面部识别的基础工作在科技界几乎是一片空白。幸运的是,伍迪的大部分研究工作和书信仍有保存,让我们回顾一下这段历史。
伍迪于1921年出生在俄克拉荷马州的梅斯维尔镇,整个童年时期都在帮助父亲维持农场的生计。
12岁时伍迪的父亲去世,在大萧条时期,整个家庭陷入了更加贫困的境地。高中毕业时,伍迪在养鸡场上班,然后搬到诺曼市,开始在俄克拉荷马大学上课,第二次世界大战前夕加入军队。之后伍迪表现出数学天赋,在密苏里州伦纳德伍德堡的办公室工作,在那里训练一波又一波的美国士兵进行战斗。1944年6月7日,即“驱逐日”的第二天,伍迪终于被派往欧洲,在那里他设计了大型海军舰艇(为海滩登陆而建造),获得了青铜之星。
战争结束后,伍迪回到犹他大学主修数学,并在两年半内完成学业,然后去伯克利攻读博士学位。毕业后,他在新墨西哥州的桑迪亚公司工作,与氢弹的发明者之一斯坦尼斯拉夫·乌兰等名人一起从事政府资助的核武器研究。1956年,伍迪飞往马绍尔群岛,观察对埃涅韦塔克环礁的武器测试,该地区的部分放射性污染比切尔诺贝利或福岛更为严重。他在日记中写道:“帮助祖国成为世界上最强大的国家令我很满意。”
桑迪亚为伍迪提供了进入计算世界的第一步,起初,他在编写代码方面的努力与核武器研究的严谨计算直接相关。一项较早的工作是“计算大规模热核袭击产生的沉降概率的程序”,它考虑了爆炸的产量、爆破点、爆炸时间、平均风速等因素,以预测在这种情况下沉降物将落在何处攻击。
但是随着他对计算机的热爱越来越深,伍迪对自动模式识别(尤其是机器读取)产生了兴趣,这是教计算机识别未标记文字字符的过程。他与他的朋友和同事伊本·布朗宁合作,后者是数学家、航空工程师和生物物理学家。
他们首先设计了一个印刷字符——字母Q,然后根据是否包含字符的一部分,为每个单元格分配一个二进制数:空单元格为0,填充单元格为1。然后将單元格随机分组为有序对,例如坐标集(理论上,分组可以包括任意数量的单元格,因此命名为n-tuple)。通过进一步的数学操作,计算机能够为角色的网格分配唯一的分数。当计算机遇到一个新字符时,它会简单地将该字符的网格与数据库中的其他字符进行比较,直到找到最接近的匹配项为止。
美丽n元组的方法是,它可以识别同一个字符的许多变种:最Q小号往往很接近其他得分Q秒。更好的是,该过程可以使用任何模式,而不仅仅是文本。
1960年伍迪与布朗宁和桑迪亚的第三位同事合作,成立了自己的公司Panoramic Research Incorporated(全景研究公司),最初是在加利福尼亚州帕洛阿尔托的一个小办公室中成立的。当时,世界上大多数计算机(大型数据存储在打孔卡或磁带上的大型计算机)都位于大型公司办公室和政府实验室中。
在Panoramic运营的整个过程中,有一个赞助者:中央情报局。在伍迪档案中幸存的证据表明,多年来Panoramic与CIA前线公司开展业务。根据专门针对《信息自由法》建立的网站Black Vault获得的记录,Panoramic是从事MK-Ultra项目的80个组织之一,MK-Ultra项目是CIA的“头脑控制”程序。
另一家公司金赫尔利也资助了伍迪在Panoramic的最著名的研究,在1963年初,公司提议“进行一项研究,以确定简化的面部识别机的可行性”。运用之前伍迪和布朗宁在工作中的n元组方法,给计算机建立一个数据库,其中包含10个人的不同照片,并查看它是否可以识别每个人的新照片。不久以后,测试人数扩大到数千人。
在现代,识别十张面孔似乎是非常轻松的事情,但是在1963年却充满挑战。从识别文字到识别面孔是一个巨大的飞跃。首先,没有标准的方法可以将照片数字化,也没有现有的数字图像数据库可以借鉴。如今的研究人员可以在数百万个免费的自拍照上训练他们的算法,但是Panoramic必须从头开始逐张建立其数据库。
还有一个更大的问题:与页面上的二维字母不同,活着的人类上的三维面孔不是一成不变的。同一个人的图像在头部旋转、光线强度和角度方面可能有所不同;人们的年龄和发型改变;在一张照片中看起来无忧无虑的人可能在下一张照片中显得焦虑。就像在一组极其复杂的分数中找到公分母一样,团队将需要以某种方式校正所有这些可变性并标准化他们正在比较的图像。还有个障碍是:他们的主要机器之一是CDC 1604,它只有192 KB的RAM ,比基本的现代智能手机小得多的工作内存。
伍迪从一开始就充分意识到这些挑战,因此采用了分而治之的方法,将研究分解为多个部分,并将其分配给其他全景研究人员。一位年轻的研究员开始研究数字化问题:他用16毫米胶卷拍摄了该项目的人脸黑白照片。然后使用了由Browning开发的扫描设备,将每张图片转换为成千上万个数据点,每个数据点代表光强度值【范围从0(完全暗)到3(完全亮)】。但是对于计算机而言,这太多的数据点无法一次全部处理,因此这位年轻的研究人员编写了一个名为NUBLOB的程序,该程序将图像切成随机大小的色板并计算出每个人的分数。
整个1965年,Panoramic尝试为面部创建全自动的Bertillon系统。该团队试图设计一种程序,通过解析照片中的明暗模式来定位鼻子、嘴唇等,但这种努力大多是失败的。
因此,伍迪开始探索他们所谓的“人机”方法进行面部识别,这种方法将一些人的帮助纳入了方程式。全景公司征召伍迪十几岁的儿子Gregory和他的一位朋友浏览了一堆照片(总共122张照片,代表大约50个人),并对每张脸进行了22次测量,包括从上到下的耳朵长度以及从下到上的嘴巴宽度。
1967年伍迪终于完成了最后一项任务,该实验的目的是帮助执法机构快速筛查杯子照片和肖像数据库,寻找比赛对象。和以前一样,该项目的资金似乎来自美国政府,CIA在2005年解密的一份1967年文件中提到了面部识别系统的“外部合同”,该系统可以将搜索时间缩短。
伍迪在该项目上的主要合作者是斯坦福研究所应用物理实验室的研究工程师彼得·哈特(现在被称为SRI International,该研究所于1970年从斯坦福大学分离出来,因为它严重依赖军事资金在校园内引起了争议)。伍迪和哈特从大约800张图像的数据库开始,“400名成年男性白种人”每张大约两张新闻纸品质的照片,年龄和头部旋转情况各异。使用RAND平板电脑,他们将每张照片记录了46个坐标,其中每个耳朵记录了五个坐标,鼻子上记录了七个坐标,每个眉毛四个。
该计算机的任务是记住每个面孔的一个版本,并使用它来识别另一个版本。伍迪和哈特为机器提供了两个快捷方式。使用第一种(称为组匹配),计算机会将脸部分为多个特征(左眉、右耳等),并比较它们之间的相对距离。第二种方法依赖贝叶斯决策理论,它使用22次测量来对整体进行有根据的猜测。
最后这两个程序大致完成了任务,当伍迪和哈特让三个人交叉匹配100张面孔的子集时,即使最快的一张也要花六个小时才能完成。CDC 3800计算机在大约三分钟内完成了类似的任务,时间大大缩短。伍迪和哈特承认,人类在应对头部旋转和照片质量差异方面表现得更好,但在耐受衰老造成的差异方面,计算机“绝对优越”,他们总结道,机器未来会“支配”人类。
1950年后期,伍迪有一项工作是研发面部识别技术,并吸引了美国政府的兴趣,实际上伍迪的实验主要出资者似乎正是中央情报局的前身。如今面部识别已成为手机、笔记本电脑、护照和支付应用程序的首选安全功能,提升了人们工作和生活的效率。但在上世纪60年代,面部识别的基础工作在科技界几乎是一片空白。幸运的是,伍迪的大部分研究工作和书信仍有保存,让我们回顾一下这段历史。
天才的青少年时代
伍迪于1921年出生在俄克拉荷马州的梅斯维尔镇,整个童年时期都在帮助父亲维持农场的生计。
12岁时伍迪的父亲去世,在大萧条时期,整个家庭陷入了更加贫困的境地。高中毕业时,伍迪在养鸡场上班,然后搬到诺曼市,开始在俄克拉荷马大学上课,第二次世界大战前夕加入军队。之后伍迪表现出数学天赋,在密苏里州伦纳德伍德堡的办公室工作,在那里训练一波又一波的美国士兵进行战斗。1944年6月7日,即“驱逐日”的第二天,伍迪终于被派往欧洲,在那里他设计了大型海军舰艇(为海滩登陆而建造),获得了青铜之星。
战争结束后,伍迪回到犹他大学主修数学,并在两年半内完成学业,然后去伯克利攻读博士学位。毕业后,他在新墨西哥州的桑迪亚公司工作,与氢弹的发明者之一斯坦尼斯拉夫·乌兰等名人一起从事政府资助的核武器研究。1956年,伍迪飞往马绍尔群岛,观察对埃涅韦塔克环礁的武器测试,该地区的部分放射性污染比切尔诺贝利或福岛更为严重。他在日记中写道:“帮助祖国成为世界上最强大的国家令我很满意。”
全景研究公司的诞生
桑迪亚为伍迪提供了进入计算世界的第一步,起初,他在编写代码方面的努力与核武器研究的严谨计算直接相关。一项较早的工作是“计算大规模热核袭击产生的沉降概率的程序”,它考虑了爆炸的产量、爆破点、爆炸时间、平均风速等因素,以预测在这种情况下沉降物将落在何处攻击。
但是随着他对计算机的热爱越来越深,伍迪对自动模式识别(尤其是机器读取)产生了兴趣,这是教计算机识别未标记文字字符的过程。他与他的朋友和同事伊本·布朗宁合作,后者是数学家、航空工程师和生物物理学家。
他们首先设计了一个印刷字符——字母Q,然后根据是否包含字符的一部分,为每个单元格分配一个二进制数:空单元格为0,填充单元格为1。然后将單元格随机分组为有序对,例如坐标集(理论上,分组可以包括任意数量的单元格,因此命名为n-tuple)。通过进一步的数学操作,计算机能够为角色的网格分配唯一的分数。当计算机遇到一个新字符时,它会简单地将该字符的网格与数据库中的其他字符进行比较,直到找到最接近的匹配项为止。
美丽n元组的方法是,它可以识别同一个字符的许多变种:最Q小号往往很接近其他得分Q秒。更好的是,该过程可以使用任何模式,而不仅仅是文本。
1960年伍迪与布朗宁和桑迪亚的第三位同事合作,成立了自己的公司Panoramic Research Incorporated(全景研究公司),最初是在加利福尼亚州帕洛阿尔托的一个小办公室中成立的。当时,世界上大多数计算机(大型数据存储在打孔卡或磁带上的大型计算机)都位于大型公司办公室和政府实验室中。
在Panoramic运营的整个过程中,有一个赞助者:中央情报局。在伍迪档案中幸存的证据表明,多年来Panoramic与CIA前线公司开展业务。根据专门针对《信息自由法》建立的网站Black Vault获得的记录,Panoramic是从事MK-Ultra项目的80个组织之一,MK-Ultra项目是CIA的“头脑控制”程序。
另一家公司金赫尔利也资助了伍迪在Panoramic的最著名的研究,在1963年初,公司提议“进行一项研究,以确定简化的面部识别机的可行性”。运用之前伍迪和布朗宁在工作中的n元组方法,给计算机建立一个数据库,其中包含10个人的不同照片,并查看它是否可以识别每个人的新照片。不久以后,测试人数扩大到数千人。
在现代,识别十张面孔似乎是非常轻松的事情,但是在1963年却充满挑战。从识别文字到识别面孔是一个巨大的飞跃。首先,没有标准的方法可以将照片数字化,也没有现有的数字图像数据库可以借鉴。如今的研究人员可以在数百万个免费的自拍照上训练他们的算法,但是Panoramic必须从头开始逐张建立其数据库。
还有一个更大的问题:与页面上的二维字母不同,活着的人类上的三维面孔不是一成不变的。同一个人的图像在头部旋转、光线强度和角度方面可能有所不同;人们的年龄和发型改变;在一张照片中看起来无忧无虑的人可能在下一张照片中显得焦虑。就像在一组极其复杂的分数中找到公分母一样,团队将需要以某种方式校正所有这些可变性并标准化他们正在比较的图像。还有个障碍是:他们的主要机器之一是CDC 1604,它只有192 KB的RAM ,比基本的现代智能手机小得多的工作内存。
伍迪从一开始就充分意识到这些挑战,因此采用了分而治之的方法,将研究分解为多个部分,并将其分配给其他全景研究人员。一位年轻的研究员开始研究数字化问题:他用16毫米胶卷拍摄了该项目的人脸黑白照片。然后使用了由Browning开发的扫描设备,将每张图片转换为成千上万个数据点,每个数据点代表光强度值【范围从0(完全暗)到3(完全亮)】。但是对于计算机而言,这太多的数据点无法一次全部处理,因此这位年轻的研究人员编写了一个名为NUBLOB的程序,该程序将图像切成随机大小的色板并计算出每个人的分数。
机器未来会“支配”人类
整个1965年,Panoramic尝试为面部创建全自动的Bertillon系统。该团队试图设计一种程序,通过解析照片中的明暗模式来定位鼻子、嘴唇等,但这种努力大多是失败的。
因此,伍迪开始探索他们所谓的“人机”方法进行面部识别,这种方法将一些人的帮助纳入了方程式。全景公司征召伍迪十几岁的儿子Gregory和他的一位朋友浏览了一堆照片(总共122张照片,代表大约50个人),并对每张脸进行了22次测量,包括从上到下的耳朵长度以及从下到上的嘴巴宽度。
1967年伍迪终于完成了最后一项任务,该实验的目的是帮助执法机构快速筛查杯子照片和肖像数据库,寻找比赛对象。和以前一样,该项目的资金似乎来自美国政府,CIA在2005年解密的一份1967年文件中提到了面部识别系统的“外部合同”,该系统可以将搜索时间缩短。
伍迪在该项目上的主要合作者是斯坦福研究所应用物理实验室的研究工程师彼得·哈特(现在被称为SRI International,该研究所于1970年从斯坦福大学分离出来,因为它严重依赖军事资金在校园内引起了争议)。伍迪和哈特从大约800张图像的数据库开始,“400名成年男性白种人”每张大约两张新闻纸品质的照片,年龄和头部旋转情况各异。使用RAND平板电脑,他们将每张照片记录了46个坐标,其中每个耳朵记录了五个坐标,鼻子上记录了七个坐标,每个眉毛四个。
该计算机的任务是记住每个面孔的一个版本,并使用它来识别另一个版本。伍迪和哈特为机器提供了两个快捷方式。使用第一种(称为组匹配),计算机会将脸部分为多个特征(左眉、右耳等),并比较它们之间的相对距离。第二种方法依赖贝叶斯决策理论,它使用22次测量来对整体进行有根据的猜测。
最后这两个程序大致完成了任务,当伍迪和哈特让三个人交叉匹配100张面孔的子集时,即使最快的一张也要花六个小时才能完成。CDC 3800计算机在大约三分钟内完成了类似的任务,时间大大缩短。伍迪和哈特承认,人类在应对头部旋转和照片质量差异方面表现得更好,但在耐受衰老造成的差异方面,计算机“绝对优越”,他们总结道,机器未来会“支配”人类。