论文部分内容阅读
在智能手机屏幕视图上叠加信息的程序将会改变我们与周围世界的交互方式。
想象你正在墨西哥度假。一片阳光海滨看来正适合游泳,但沙滩上有一块显眼的标牌,你零星的西班牙语词汇不足以看懂它。这时,只要你从口袋里拿出iPhone,把摄像头对准标牌,就可以从屏幕上看到,标牌用英语警告道“海滨关闭——最近鲨鱼攻击。”
这就是字镜头(Word Lens)的威力。它是一个iPhone应用程序,可以从手机摄像头捕捉的实时景象中识别出西班牙语文本,瞬时完成文字翻译,以相同的颜色、大小和方向替换原文。译出的文本真实地展现在你面前,似乎那个标牌原本就是用英文印的。同样,这个应用也可以把英语译成西班牙语。在标牌,报纸,餐厅菜单,网页上,以及所有仅靠一本旅游指南无法领略的地方,字镜头都可以上演魔术,给使用者一种熟悉环境的感觉。
字镜头是增强现实(augmentedreality,简称AR)的一个最为精彩的商业应用例证。增强现实是把电脑生成的景象覆盖到真实世界图景上的应用软件,在两年前成为一个热门话题,当时游戏,虚拟购物和搜索引擎的演示视频充斥网络,很多数码信息嵌入了实时图像和照片。现在,AR将不再只是一种漂亮的娱乐模式,随着具有位置感知功能的智能手机的来临,它将深深地改变我们与环境的交互方式。
增强现实类的应用程序已经超出了文字翻译的范畴。谷歌风镜(GoogleGoggles)可以认出产品和地标——比如日本的严岛神社,并且立即显示出谷歌汇编的相关信息。尼德兰建筑学院(TheNetherlands Architecture Institute)的应用程序则通过档案图像,显示出建筑曾经的模样。Metaio公司正在开发一种打印机修理应用程序,可以指导那些不懂技术的职员修好顽固不化的机器。
作为增强现实的雏形,这种“维护指南”式的应用程序最初由托马斯-考德尔(Thomas Caudell)在1992年提出,他当时是波音公司的研究人员。考德尔意识到,如果能在头戴式显示屏的实时图像中插入相关的指导软件,可以帮助车间工人穿越庞大飞机的线路迷宫。这个名词现在应用广泛,从游戏,医学影像到诸如字镜头的现实世界指南。
装备最好的应用程序,“手机不仅仅是一个窗口,还是一根魔杖,”克里斯托弗·斯泰普尔顿(ChristopherStapleton)说。他是中央佛罗里达太学的研究人员,已经花了十多年的时间来开发AR应用,包括在城市作战区的军事行动模拟。那些应用程序原本需要借助特殊的装备才能实现,如今在手机上已成为可能。
六个理由使这些可能性正在成形。首先,手机CPU的计算能力最近达到了一千兆赫的水平,这与许多小型笔记本的配置相去不远,一些英特尔上网本的凌动芯片速率在1.5千兆赫左右。第二,顶尖的智能手机具备旨在玩游戏和观看YouTube的图形处理单元(GPU)。第三,目前的手机摄像头已足够精良,可以为电脑视觉算法提供充足的环境原始数据。第四,移动设备的屏幕分辨率已经从颗粒状进化为超平滑。第五,无线数据网络正变得更加高速和远程。最为重要的是,智能手机拥有加速度计,陀螺仪和罗盘,可以探测自身的位置和方向。这意味着一个AR应用可以说出你站在何处以及把摄像头指向何方。位置探测通过GPS或者搜索本地Wi-Fi网络并匹配名单到数据库得以实现。
目前的字镜头既不使用位置探测也不使用网络连接,但它推进了手持计算的边界。它瞬时实现的光学字符辨认能力,原本是为不那么具有挑战性的纸质文件扫描阅读设计的。
“我们必须做到把一个字,一棵树或是一张脸区分开来,”奥塔维奥古德(Ot avio Good)说,他是这个应用最主要的开发者。“为了做到这点,我们用滤镜来除掉图像阴影。文本是尖削的,那么就去掉任何不尖削的东西。我们把图像转成黑白的,以便搞清楚字母在哪里。图像中可能还会有些雾点,也许是一棵树或一幢房子,而不是一个A或者V。”
一旦字镜头确认了字母,它就会计算字母的旋度和观察者注视它们的角度,然后参考字体库试着逐个辨认字母。
“到这个步骤,我们得到了一串字母,”古德说,“但我们不肯定每个字母是什么意思,因此要在字典里查询与这串字母最接近的匹配。”
如果有那么一个匹配,字镜头最后的噱头是——“重印”标牌。古德说,“我们擦去原文,在原有的方向,前景和背景颜色上,放上新的文本,就像使用photoshop一样。”
这听来简单,但是字镜头不是从现成的软件里拼凑出来的。古德,这位前Xbox 360的程序员,发现iPhone的GPU远未强大到可以实现他在Xbox上学到的图形处理招数,取而代之地,他只好让CPU来承担图形计算,而单核结构限制了CPU在运行操作的同时识别文本并进行翻译的速度。古德最终诉诸某些旧式的编程语言来实现最大效率,直到iPhone上运行的字镜头能以高达每秒十次的速度把西班牙语重绘成英语,或者相反。
现在,古德就等着将字镜头接进iPhone5或者即将登场的双核安卓手机了。随着这些产品在今年进入市场,字镜头将会实现更加炫目的功能。它将能够辨认更多的字体和语言,并且不会被一块锈迹斑斑的标牌难住。同时,古德预期将会减少应用中任何可见的闪烁:“高度写真使得它有效多了”。
这是AR的试金石:你能忘了你正看着一块电脑屏幕么?要做到这一步,很多应用程序需要目前手机无法企及的精确输入。“手机搭载的GPS可以精确到几米,”布鲁斯·托马斯(BruceThomas)说,他指导着南澳大学的一个可穿戴式计算实验室。托马斯建立了基于背包和头戴装置的系统,以提供合适的AR用于军事训练,或是漫步于一块拟建的郊区开发用地,来看看它建成之后的模样。“我们使用价值3000美元的传感器,它们能将定位精确到你头部的宽度,把头部的倾斜度精确到五度,”他说。增加的精度让托马斯的系统可以在使用者移动头部时看到虚拟的建筑。这组软硬件的花费大约30000美元。在手持设备上实现如此高精度的定位不太现实,但手机屏幕的分辨率已经超越托马斯的头戴显示屏了。
如果增强现实要开发它的大众普及度,应用程序还必须更容易构建。佐治亚理工学院的一个课题组正在为移动AR内容开发开放的技术平台。其他人则努力建立专属平台,例如软件制作公司Layar,构建工具以帮助其他公司创建应用程序。
当我们回顾GPS导航时,它就相当于一个AR的原型,最好的增强现实技术是那些让不可思议的应用变得寻常无奇。想象一副画面吧,一个应用将你引至超市里那个正中下怀的货架,在你更换爆胎的过程中与你交谈,或者提醒你屋里的其他人是谁。一旦它成为现实,十有八九你是不愿意离开它了。
想象你正在墨西哥度假。一片阳光海滨看来正适合游泳,但沙滩上有一块显眼的标牌,你零星的西班牙语词汇不足以看懂它。这时,只要你从口袋里拿出iPhone,把摄像头对准标牌,就可以从屏幕上看到,标牌用英语警告道“海滨关闭——最近鲨鱼攻击。”
这就是字镜头(Word Lens)的威力。它是一个iPhone应用程序,可以从手机摄像头捕捉的实时景象中识别出西班牙语文本,瞬时完成文字翻译,以相同的颜色、大小和方向替换原文。译出的文本真实地展现在你面前,似乎那个标牌原本就是用英文印的。同样,这个应用也可以把英语译成西班牙语。在标牌,报纸,餐厅菜单,网页上,以及所有仅靠一本旅游指南无法领略的地方,字镜头都可以上演魔术,给使用者一种熟悉环境的感觉。
字镜头是增强现实(augmentedreality,简称AR)的一个最为精彩的商业应用例证。增强现实是把电脑生成的景象覆盖到真实世界图景上的应用软件,在两年前成为一个热门话题,当时游戏,虚拟购物和搜索引擎的演示视频充斥网络,很多数码信息嵌入了实时图像和照片。现在,AR将不再只是一种漂亮的娱乐模式,随着具有位置感知功能的智能手机的来临,它将深深地改变我们与环境的交互方式。
增强现实类的应用程序已经超出了文字翻译的范畴。谷歌风镜(GoogleGoggles)可以认出产品和地标——比如日本的严岛神社,并且立即显示出谷歌汇编的相关信息。尼德兰建筑学院(TheNetherlands Architecture Institute)的应用程序则通过档案图像,显示出建筑曾经的模样。Metaio公司正在开发一种打印机修理应用程序,可以指导那些不懂技术的职员修好顽固不化的机器。
作为增强现实的雏形,这种“维护指南”式的应用程序最初由托马斯-考德尔(Thomas Caudell)在1992年提出,他当时是波音公司的研究人员。考德尔意识到,如果能在头戴式显示屏的实时图像中插入相关的指导软件,可以帮助车间工人穿越庞大飞机的线路迷宫。这个名词现在应用广泛,从游戏,医学影像到诸如字镜头的现实世界指南。
装备最好的应用程序,“手机不仅仅是一个窗口,还是一根魔杖,”克里斯托弗·斯泰普尔顿(ChristopherStapleton)说。他是中央佛罗里达太学的研究人员,已经花了十多年的时间来开发AR应用,包括在城市作战区的军事行动模拟。那些应用程序原本需要借助特殊的装备才能实现,如今在手机上已成为可能。
六个理由使这些可能性正在成形。首先,手机CPU的计算能力最近达到了一千兆赫的水平,这与许多小型笔记本的配置相去不远,一些英特尔上网本的凌动芯片速率在1.5千兆赫左右。第二,顶尖的智能手机具备旨在玩游戏和观看YouTube的图形处理单元(GPU)。第三,目前的手机摄像头已足够精良,可以为电脑视觉算法提供充足的环境原始数据。第四,移动设备的屏幕分辨率已经从颗粒状进化为超平滑。第五,无线数据网络正变得更加高速和远程。最为重要的是,智能手机拥有加速度计,陀螺仪和罗盘,可以探测自身的位置和方向。这意味着一个AR应用可以说出你站在何处以及把摄像头指向何方。位置探测通过GPS或者搜索本地Wi-Fi网络并匹配名单到数据库得以实现。
目前的字镜头既不使用位置探测也不使用网络连接,但它推进了手持计算的边界。它瞬时实现的光学字符辨认能力,原本是为不那么具有挑战性的纸质文件扫描阅读设计的。
“我们必须做到把一个字,一棵树或是一张脸区分开来,”奥塔维奥古德(Ot avio Good)说,他是这个应用最主要的开发者。“为了做到这点,我们用滤镜来除掉图像阴影。文本是尖削的,那么就去掉任何不尖削的东西。我们把图像转成黑白的,以便搞清楚字母在哪里。图像中可能还会有些雾点,也许是一棵树或一幢房子,而不是一个A或者V。”
一旦字镜头确认了字母,它就会计算字母的旋度和观察者注视它们的角度,然后参考字体库试着逐个辨认字母。
“到这个步骤,我们得到了一串字母,”古德说,“但我们不肯定每个字母是什么意思,因此要在字典里查询与这串字母最接近的匹配。”
如果有那么一个匹配,字镜头最后的噱头是——“重印”标牌。古德说,“我们擦去原文,在原有的方向,前景和背景颜色上,放上新的文本,就像使用photoshop一样。”
这听来简单,但是字镜头不是从现成的软件里拼凑出来的。古德,这位前Xbox 360的程序员,发现iPhone的GPU远未强大到可以实现他在Xbox上学到的图形处理招数,取而代之地,他只好让CPU来承担图形计算,而单核结构限制了CPU在运行操作的同时识别文本并进行翻译的速度。古德最终诉诸某些旧式的编程语言来实现最大效率,直到iPhone上运行的字镜头能以高达每秒十次的速度把西班牙语重绘成英语,或者相反。
现在,古德就等着将字镜头接进iPhone5或者即将登场的双核安卓手机了。随着这些产品在今年进入市场,字镜头将会实现更加炫目的功能。它将能够辨认更多的字体和语言,并且不会被一块锈迹斑斑的标牌难住。同时,古德预期将会减少应用中任何可见的闪烁:“高度写真使得它有效多了”。
这是AR的试金石:你能忘了你正看着一块电脑屏幕么?要做到这一步,很多应用程序需要目前手机无法企及的精确输入。“手机搭载的GPS可以精确到几米,”布鲁斯·托马斯(BruceThomas)说,他指导着南澳大学的一个可穿戴式计算实验室。托马斯建立了基于背包和头戴装置的系统,以提供合适的AR用于军事训练,或是漫步于一块拟建的郊区开发用地,来看看它建成之后的模样。“我们使用价值3000美元的传感器,它们能将定位精确到你头部的宽度,把头部的倾斜度精确到五度,”他说。增加的精度让托马斯的系统可以在使用者移动头部时看到虚拟的建筑。这组软硬件的花费大约30000美元。在手持设备上实现如此高精度的定位不太现实,但手机屏幕的分辨率已经超越托马斯的头戴显示屏了。
如果增强现实要开发它的大众普及度,应用程序还必须更容易构建。佐治亚理工学院的一个课题组正在为移动AR内容开发开放的技术平台。其他人则努力建立专属平台,例如软件制作公司Layar,构建工具以帮助其他公司创建应用程序。
当我们回顾GPS导航时,它就相当于一个AR的原型,最好的增强现实技术是那些让不可思议的应用变得寻常无奇。想象一副画面吧,一个应用将你引至超市里那个正中下怀的货架,在你更换爆胎的过程中与你交谈,或者提醒你屋里的其他人是谁。一旦它成为现实,十有八九你是不愿意离开它了。