论文部分内容阅读
当年微软开发Kinect 3D传感器的时候,其中一个关键性的任务就是校准算法,以便迅速、准确地识别人体各部位,尤其是手部,以确保Kinect适用于任何家庭环境,任何年龄的人群,任何穿着和任何背景物。使用基于计算机的方法做校准具有其局限性,原因在于在Kinect生成的图像中电脑可能无法识别手部,或错误地识别了手部的存在。因此,微软此前宣布要向全人类求助,借助亚马逊的土耳其机器人完成图像标记识别。这是一个在线的服务,公众通过执行简单但计算机不擅长的任务而获得报酬。结果,Kinect现在能识别所有(或大多数)样子的手。这实在太棒了!
当然,如果你唯一关心的只是基于手部动作的游戏,你会认为这是一个天大的好消息,但是从商业机器人角度看,手部只是我们需要机器识别的成千上万的“东西”之一。试想一下,如果一个机器人能迅速地识别家里、办公室或工厂里的任何对象:机器人看到或接触的任何东西都能被马上识别出来。这才是个真正伟大的进步。
所以问题是:我们能不能实现这一目标?我们可以用某种方式自动识别或依靠公众识别一切潜在的对象吗?
这种类型的数据收集涉及到一个先有鸡还是先有蛋的问题:如果你有一个对象均被恰当标记的数据库,基于存储在数据库的“知识系统”,你便可以开始构建各类应用程序,而这些应用程序反过来又可以生成更多的数据,让你进一步完善数据库的“知识系统”。问题是,你第一步需要一个数据库!有时候,企业会认为建立这套数据库是很有价值的。比如Kinect之于微软。另一个例子是谷歌的“语音指令”,通过语音让系统执行搜索、发电子邮件以及其他任务。每次你说出一个词,你的Android手机就会问:“你的意思是……吗?”然后提供一个字词列表供你选择想要表达的意思,在这个过程中,你帮助完善了谷歌得语音识别系统。随着时间的推移,不同人讲话模式的变化和细节都会作为语音数据被捕获,使数据库更贴近实际的语言使用习惯。没有这种持续改进,语音到文本将永远不会成为一个智能便利的应用。
现在回到机器人技术的问题上。我认为机器人研究团体应更加关注数据的重要性。机器人技术涉及的很多东西都需要一个大规模的数据库(需要强调大规模),以实现技术上的可行性(譬如对象识别),因此这项功能不能依赖纯理论研究、机器人专家或算法,而必须掌握“切向技术”的市场趋势,例如网络或智能手机。因此,为了让机器人技术能有实现的一天,我们需要关注具有收集海量数据能力的技术,为了机器人技术以外的需求,也为了在技术成熟的时候把它应用在机器人技术上。
其实,我们最需要的数据类型是3D数据。那么,我们该如何收集每一个潜在对象的3D数据呢?幸运的是,一个大规模的关于Kinect感应器的骇客社区,以及像MatterPort这样的创业公司正在实现快速3D渲染技术,只需要使用Kinect从几个角度拍摄对象不同的图像就可以实现。这项技术现在还不成熟,不过随着传感器和算法的改进,你能预见用3D技术再现一个场景就会像拍一张照片般容易。其他能够同时补抓光的强度和角度、允许用户在已经拍好的照片重新调焦的技术,如Lytro和其他“计算机摄像头”,同样可以实现 3D图像的生成。
正如我在上文提到,机器人专家不可能单独完成所有的3D扫描。我们希望其他技术能推动这一趋势的发展。因此,这里是一个想法。如果在线零售商看到通过展示商品细致3D模型带动销售的商业价值(而不是过去我们在网站看到的二维图像),并为图像标记诸如颜色、重量、功能的描述,那么成千上万的物品原则上都能被机器搜索。Google在2010年的IEEE机器人与仿生学国际会议上提出过一个相似的想法,并在去年五月的Google I/O开发者大会重申了这个见解。也许不仅网络零售商能供应3D扫描,消费者也可以,只要他们意识到在eBay上传3D图像进行销售是更有效的生财之道。
如果这种情况成为现实,那么所有的3D图像将可以聚合成一个的数据库,让机器人可以便捷地使用它作为参考。一个机器人将收集眼前一个物体的3D传感数据,然后与参考图像进行匹配。随着时间的推移和反馈数据(譬如“是的,罗西,这是一个盘子”)的累积,机器人的目标识别能力将不断提高。
所以,如果你想要更智能的机器人,你应该开始要求在线零售商提供其产品的3D扫描, 并开始创建自己的扫描。有了这些数据,机器人终有一天能够认识和理解世界上我们熟悉的东西。(文章授权来自于国际电子电气工程师协会《Spectrum》期刊)
当然,如果你唯一关心的只是基于手部动作的游戏,你会认为这是一个天大的好消息,但是从商业机器人角度看,手部只是我们需要机器识别的成千上万的“东西”之一。试想一下,如果一个机器人能迅速地识别家里、办公室或工厂里的任何对象:机器人看到或接触的任何东西都能被马上识别出来。这才是个真正伟大的进步。
所以问题是:我们能不能实现这一目标?我们可以用某种方式自动识别或依靠公众识别一切潜在的对象吗?
这种类型的数据收集涉及到一个先有鸡还是先有蛋的问题:如果你有一个对象均被恰当标记的数据库,基于存储在数据库的“知识系统”,你便可以开始构建各类应用程序,而这些应用程序反过来又可以生成更多的数据,让你进一步完善数据库的“知识系统”。问题是,你第一步需要一个数据库!有时候,企业会认为建立这套数据库是很有价值的。比如Kinect之于微软。另一个例子是谷歌的“语音指令”,通过语音让系统执行搜索、发电子邮件以及其他任务。每次你说出一个词,你的Android手机就会问:“你的意思是……吗?”然后提供一个字词列表供你选择想要表达的意思,在这个过程中,你帮助完善了谷歌得语音识别系统。随着时间的推移,不同人讲话模式的变化和细节都会作为语音数据被捕获,使数据库更贴近实际的语言使用习惯。没有这种持续改进,语音到文本将永远不会成为一个智能便利的应用。
现在回到机器人技术的问题上。我认为机器人研究团体应更加关注数据的重要性。机器人技术涉及的很多东西都需要一个大规模的数据库(需要强调大规模),以实现技术上的可行性(譬如对象识别),因此这项功能不能依赖纯理论研究、机器人专家或算法,而必须掌握“切向技术”的市场趋势,例如网络或智能手机。因此,为了让机器人技术能有实现的一天,我们需要关注具有收集海量数据能力的技术,为了机器人技术以外的需求,也为了在技术成熟的时候把它应用在机器人技术上。
其实,我们最需要的数据类型是3D数据。那么,我们该如何收集每一个潜在对象的3D数据呢?幸运的是,一个大规模的关于Kinect感应器的骇客社区,以及像MatterPort这样的创业公司正在实现快速3D渲染技术,只需要使用Kinect从几个角度拍摄对象不同的图像就可以实现。这项技术现在还不成熟,不过随着传感器和算法的改进,你能预见用3D技术再现一个场景就会像拍一张照片般容易。其他能够同时补抓光的强度和角度、允许用户在已经拍好的照片重新调焦的技术,如Lytro和其他“计算机摄像头”,同样可以实现 3D图像的生成。
正如我在上文提到,机器人专家不可能单独完成所有的3D扫描。我们希望其他技术能推动这一趋势的发展。因此,这里是一个想法。如果在线零售商看到通过展示商品细致3D模型带动销售的商业价值(而不是过去我们在网站看到的二维图像),并为图像标记诸如颜色、重量、功能的描述,那么成千上万的物品原则上都能被机器搜索。Google在2010年的IEEE机器人与仿生学国际会议上提出过一个相似的想法,并在去年五月的Google I/O开发者大会重申了这个见解。也许不仅网络零售商能供应3D扫描,消费者也可以,只要他们意识到在eBay上传3D图像进行销售是更有效的生财之道。
如果这种情况成为现实,那么所有的3D图像将可以聚合成一个的数据库,让机器人可以便捷地使用它作为参考。一个机器人将收集眼前一个物体的3D传感数据,然后与参考图像进行匹配。随着时间的推移和反馈数据(譬如“是的,罗西,这是一个盘子”)的累积,机器人的目标识别能力将不断提高。
所以,如果你想要更智能的机器人,你应该开始要求在线零售商提供其产品的3D扫描, 并开始创建自己的扫描。有了这些数据,机器人终有一天能够认识和理解世界上我们熟悉的东西。(文章授权来自于国际电子电气工程师协会《Spectrum》期刊)