论文部分内容阅读
“请看镜头,再眨眨眼。”
只要一两秒钟,摄像头就能判断出你是不是登记信息上记录的那个人。哪怕你在镜头前不小心晃了一下,聪明的镜头还是会认出你。至于人类常常出现的那种“脸盲症”—尤其在面对其他种族的时候,放心,只要你提前把各种面孔的图片放进机器的数据库,训练它,它就极少会认错人。
让机器具有这种能力的是数据和算法—数万张打好标签的人脸照片,以及人类赋予它或者它根据对数万张照片的识别、自己总结出来的认知规律。
就数据而言,人类产生的数据在指数级增加。根据IBM公司估算,人类有史以来至2003年所创造的信息量为5EB(编注:EB是指Exabyte,计算机存储单位。如果从大家还比较熟悉的较小的信息存储单位介绍起—1TB=1024GB,1PB=1024TB,而1EB=1024PB),到2011年,人类每两天就能产生5EB的信息量。而到2018年,人类产生这样的信息量大概只要一个小时。
面对信息数据爆炸,技术公司最先解决的是历史数据的存储问题,然后是提升处理当下“高并发”数据运营的能力,而第三步,它们就开始思考如何把已经累积的这些数据复用—如果把数据的采集、传输、存储、计算和应用看作一个产业链,计算和应用就是其中最有价值的环节。
腾讯的人工智能团队看上的是医生“头脑”中的数据。他们把一些老医生根据CT图片判断疾病的经验量化成指标,训练出可以帮经验不足的医生判断医学影像的人工智能产品,提高诊断的正确率。
像高德地图这样的移动地图应用,则早已经可以根据用户在路上前进时实时使用高德地图的数据,基于用户的地理位置信息,分析出某一路段大多数用户的车行速度,从而推算出那条道路是否存在拥堵。
“比如一条路正面时速应该是40公里,突然发现有一段区间的用户的时速都变成0了,就说明堵了。”阿里巴巴合伙人、高德地图总裁刘振飞对《第一财经》杂志说。他拿“冰山”图形做比喻,称高德地图其实有两个:一个是手机上和车载的高德地图,“这是大家看到的高德地图”;另一个则是看不见的高德—中国市场有超过30万款App,包括今日头条、美团、微博、网约车……它们所使用的定位功能,都是由高德开放平台提供的。这两部分共同汇集成海量的人地关系大数据。加上交警部门的事故接警数据和用户主动分享的路况、事件数据,高德甚至能区分出哪些拥堵是车辆聚集引起的,而哪些来自交通事故。
刘振飞团队的最新尝试,是与公安部交通管理科学研究所合作,打通一整座城市的智慧红绿灯系统,结合各方面搜集到的实时路况数据,通过一套算法帮助交管部门实现在云端更加动态智能地调度所有的红绿灯,配置更合理的时长。使用高德地图导航的司机,也能获知沿途红绿灯的实时数据,这可以帮助他们更合理地控制车速,尽量避开红 灯。
上述智能红绿灯试验已经在无锡测试成功。不过这种二维“活地图”不是地图公司的最终目标。“未来自动驾驶需要的是高精地图,它必须能分辨出来走一车道还是四车道,某个地方的栏杆有多高、红绿灯在什么位置,路旁边是不是有兩棵树。”刘振飞说。
地图公司尝试把地图从二维变成三维的时候,汽车制造厂商也想在自己的汽车上装满传感器和摄像头。
商汤科技是为汽车公司提供视觉方案的供应商之一。它正在测试通过摄像头传输的视频图片识别周边车型和物体,并通过物体长度和镜头之间的距离计算车间距,为自动驾驶提供决策依据。为完成识别,它也像识别人脸那样给数万张车辆和交通标识打过标签。
“人90%以上的信息输入来自眼睛,图像和视频是人跟这个世界交互信息的最大路径。”商汤科技副总裁杨帆对《第一财经》杂志说,有价值的数据就是信息,当信息的载体从0、1的二进制码演进到数字、文本、语音、图像和视频,数据和信息承载的形态会朝着越来越拟人化的方向发展,即未来社会生活的沟通,对人的要求会越来越低,但对机器的要求会越来越高。2014年,商汤的DeepID算法第一次让机器的人脸识别准确率超过了人眼识别率。
当腾讯、高德、商汤这样的技术公司把数据“喂”给机器,让机器开始“懂得”人的思路—赋予它规律,或者让它自己总结规律、建立认知模型(两种模式的相关技术都被称作“人工智能”,其实后者更准确的说法是“机器智能”),数据的应用场景就被进一步扩展了。
只有通过不断升级深度学习训练体系,推进算法生产环节的标准化,降低产品开发成本,才能让数据应用场景进入更多零散小量、个性化的“长尾”场景。但技术不可被神话,我们要接受它阶段性不足。
早期,这些由互联网公司捕捉的用户足迹还只是被用来做所谓“精准营销”,比如你购买过啤酒,它很可能就会向你推荐纸尿裤,或者你阅读过一篇讲述小镇青年的新闻,接下来阅读软件很可能会给你推送一篇工人的车间生活—根据的都是人类认知模型中的“相关性”。现在,新的数据应用场景已不限于这些现成“01”数据形态的领域了,从实体零售到交通、无人驾驶、智能制造、智慧医疗以及网络游戏和直播,每个尚未被数字化的传统市场也开始对数据感到兴奋。
在这些新兴场景中,数据的形态以语音和图像为主,而且数据的生产(即采集)和应用是同步进行的。以无人驾驶为例,通过摄像头或传感器收集的物理世界数据进入无人车的计算系统后,有关需要拐弯或者避让的决策要立即作出。历史数据对这些场景而言只有训练机器建模的功能。
新兴场景看起来已经有很多,不过这个阶段,技术公司在这些细分市场的商业化速度并不算很可观。2018年6月,凯迪拉克发布了和高德地图合作的智能驾驶系统,高德地图提供了导航中需要的“高精地图”。这套系统达到L3级别—司机可以在驾驶过程中放开双手,但行驶范围仅限于一段30公里的高速公路。想让这辆车在L3的状态下驶入北京、上海这样的大都市,还要再等几年,因为随着路况变复杂,制作高精地图的成本和难度也迅速上升,可能还需要发射卫星。目前对高精地图的绘制,还处于早期实验阶段。 Google于2019年1月2日获批的一款基于雷达的动作感应设备—Soli传感器也面临同样的问题,Soli传感器可以使用雷达波束捕捉三维空间里的动作,让用户按压拇指和食指指尖上的虚拟按钮,或者通过拇指和食指之间的摩擦来完成虚拟拨号。
做技术出身的刘振飞表示,尽管现在计算能力大幅提升、机器设备越来越智能,但我们应该正视理念与现实之间存大的巨大差距:“你做一个样片、一个局部的演示可以,但是如果做成你能用、我能用、家里父母都能用的东西,就需要巨大成本,那是一个工程技术。我们在一步一步探索。”
就自动驾驶而言,所有计算都必须要在毫秒级时长内完成,才对自动驾驶决策有意义。这既有赖于5G商用,也需要终端设备完成从功能机到智能机的硬件革命—不仅车要够智能,路也要够智能。实际情况是,国内的红绿灯和交通部门使用的绝大部分摄像头都是不联网的。有些红绿灯甚至还需要人工做手动控制,每过30秒或1分钟,由专门管理信号灯的人士去扳一次开关。
医疗数据的用户隐私性和医疗安全问题,令“腾讯觅影”这样的医疗影像识别产品至今没能拿到可以商用的医疗器械牌照。因为国内的商业保险并不发达,国内的影像识别公司也还没找到愿意为其技术买单的对象。
按照商业化的难易度,杨帆把结合了人工智能技术的数据应用场景分为“头部场景”和“长尾场景”两类。自动驾驶、医疗影像识别、智慧城市项目,在他看来都算得上是“头部”场景—它们也是各大公司在人工智能领域投资同质化的主要原因之一。而更多场景其实存在于“长尾”部分。
目前大数据应用的几项场景
“我们早年看好用视觉识别做工业4.0,但后来发现这个领域没有我们一开始想象的那么好,关键原因是它里面的场景特别地细分。每个生产线面临的问题,泛泛来说都可以叫‘视频分析’,但每种算法要解决的问题都不一样。”杨帆解释说,如果要为每一个细分场景都开发一套算法,前提必须是场景经过算法优化所带来的商业回报,要能支撑技术成本。所以,只有通过不断升级深度学习训练体系,推进算法生产环节的标准化,打通不同场景的技术壁垒,降低产品开发成本,才能让技术有机会进入更多零散小量、个性化的“长尾”场景。
大数据产业“链路图”
某个城市的治安部门曾提出要在河边设置一个摄像头,一旦有人跳河就能自动报警。这件事从技术上可行,挑战是至少需要上万张的人跳湖影像—根据杨帆的经验,“万级”的数据是训练机器的基数—才能训练出一个跳湖提示算法,而这个算法可能“只适应某个地方跳湖,换一个地方就不行了”。这是个极端的场景需求,但它也反映出数据产品化的过程会遇到原生数据不足的问题。
信息产业的发展方向是逐渐拟人化
模拟训练是解决原生数据不足的一种办法。商汤利用真实渣土车标注数据,以及将渣土车图像嵌入视频的模拟训练等技术,实现了当城市摄像头拍到违规进城的渣土车,立即触发实时报警的功能。
Google云前AI首席科学家、斯坦福大学教授李飞飞曾提及她带领团队开发一款老人监护产品—在老人摔倒时,机器能够报警。但是要实现这个功能,前提是要有上万张老人摔倒的行为影像数据。最后,他们通过让人模拟老人摔倒解决了这个问题。在硅谷,因此还诞生了一些专门生产模拟数据的机构。
模拟数据能解决数据量不足的问题,但仍面临数据多样性的挑战。很多场景的原始数据如果连最基本的多样性覆盖都保证不了,就没办法模拟。“模拟什么样的人跳河是真的跳河,什么样是假的呢?如果你模拟的东西不够真,你不知道机器会学出来什么。”杨帆这样解释其中的复杂性。
数据不仅是一种资产,更是一种资源。从商业价值上看,数据只有以用户为中心建构才能获得最大的变现价值。高德地图的母公司阿里巴巴目前有三大数据池—淘宝、支付宝和高德地图,它们分别意味着人与商品、人与资产、人与位置。假如将这三类数据打通,阿里巴巴能做的生意就不会仅仅是让高德帮助盒马鲜生决定选在哪里开店最好,它将实现真正的线上线下打通。但阿里巴巴迄今还没有打通这三者之间的底层数据。因为身为技术公司必须要兼顾商业效率与数据安全的问题。数据安全,在很大程度上指的是对用户个人隐私的保护。
在为开发一套还原真实物理世界的“高精地图”感到兴奋的同时,刘振飞也在思考:数据能解决所有的问题吗?
2016年,他的团队和公安部合作了一个寻找丢失儿童的公益项目。整个过程中并没有用到摄像头和人脸识别,而是靠高德的定位能力和钉钉为公安打拐系统的六千多名专门负责(找孩子)的警察开发了协同办公插件。当有儿童丢失时,当地民警通过钉钉发布寻人信息,借助高德的地理围栏和基于位置的推送(LBP)技术和接口,直接向指定范围内的高德用户推送这条消息。当有用户自愿提供线索时,专职民警会负责核实—这种找法和传统流程没有什么不同,但办事效率极大提升。这个名为“团圆”的项目,在两年内发布了3419条儿童丢失信息,而找回率高达到98.4%。
“后来我们想再做个寻找丢失老人的项目就很难。倒不是技术和钱的问题,而是缺乏明确的政府部门去管这件事,目前没有像找孩子那样的专职找老人的团队。”这件事让刘振飞意识到不是所有的问题都能用技术来解决,“一开始我们也想过在火车站、汽车站搞摄像头,后来发现这件事光靠技术还是不够的。所以,有时候我们也不能过于理想化地夸大技术的能力。”