数据易得真是中国人工智能产业的优势吗

来源 :财经 | 被引量 : 0次 | 上传用户:zhou1022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  隐私数据泛滥短期内降低了人工智能的开发门槛,让算法的设计实现更加简单,但这以数据所有权的粗暴剥夺和算法滥用为代价,不可能是长久之计
  11月21日《金融时报》刊出李开复先生写的一篇文章《中国搞21世纪数字经济的条件比美国有利》,文中谈到,中国人已开始在智慧城市开展大数据收集工作,公民的隐私当然会受到损害,但算法也将因此变得更加丰富。中国政府善于——借用馬克·扎克伯格的话来说——“快速行动,破除陈规”。巨大的消费市场,以及持续的增长潜力,将使中国有可能发展出一套颇具经济效益且独立于西方的数字生态系统……
  此文令笔者惊诧莫名。李开复先生是IT与互联网行业的意见领袖,前Google公司中国区总经理,更是互联网创业投资行业的领军人物。对于数字化与人工智能的发展,李先生应该有比绝大部分IT与互联网人士更加深刻的洞察。但认为公民隐私数据滥用会推动人工智能和相关的算法演进,中国因此比美国更有利于发展数字经济,却是一种片面与短视的认识,必须加以澄清。
  弱人工智能时代的数据污染
  人工智能作为一种最新的信息技术手段,核心就是通过模仿人类的学习过程,以海量数据对于特定的复杂数学模型(如神经网络)进行训练,通过数学模型的逐步优化,建立包含智能化业务规则的系统并加以实用。
  现阶段的人工智能是弱人工智能,其特点是:1.单一模型只能针对特定应用;2.需要海量的正确数据进行模型训练;3.产生的智能化业务规则可解释性极差。
  换句话说,一个弱人工智能系统就是一个专用的无法打开的黑盒子,既没有高适应性,也无法拆解出具体的智能化业务规则,而且高度依赖于参与训练的海量数据。
  从目前的业务实践来看,构建人工智能系统,绝大部分工作是数据准备,包括设计数据、获取数据、清洗数据和整合数据等步骤。这部分工作平均要花费60%-70%的时间。对于大型的人工智能系统,一般会安排专门的数据工程师按照数据科学家的要求进行数据准备。
  在弱人工智能发展阶段,人工智能系统高度依赖于海量数据训练,并且算法本身对错误数据几乎没有甄别能力。
  数据作为整个人工智能产业链的最上游,数据的任何问题都有可能影响到人工智能的产业链中下游甚至最终的全面应用。
  试想一下,如果支撑人工智能的关键数据来源是灰色的甚至是黑色的,这就意味着从源头开始的数据采集、处理、传递和数据质量管理就处于失控状态。
  数据使用者无法通过追溯的方式了解数据本身的采集要求,更不可能通过提高数据源数据质量的方式训练出更加高质量的模型。在很多场景下,来源不明的数据甚至无法手工剔除错误,以避免对模型训练的干扰。
  如果非法数据的提供方出于某些目的对数据进行特定方向的加工处理,并提供给人工智能企业,那基于这些数据训练出的模型就可能受到特定方向的误导,造成模型畸形,未来的全面应用就有可能会面临极大风险。
  尽管目前还没有这样的案例出现,但从理论上来分析,这是完全可能的,非法数据来源正在为人工智能应用埋下未知风险。
  对于中小企业的人工智能应用,数据污染和算法畸形可能不会造成严重后果,毕竟应用范围有限。但对于涉及国计民生或者是对市场有重大影响的行业,严控训练数据来源、数据质量,是企业和政府必须考虑的问题。
  李军
  2016年10月美国国家科技委员会公布的《美国国家人工智能研究和发展战略计划》中有七大战略计划,第五个就是开发用于人工智能培训及测试的公共数据集和环境。
  这份战略计划中谈到,政府将开发满足多样化人工智能兴趣与应用的丰富数据集,并开放满足商业和公共利益的训练测试资源,以支持企业在丰富健康的大数据环境下加速人工智能技术发展,规避数据缺陷本身带来的潜在风险。
  播洒跳蚤,收获的绝对不会是巨龙。不合法不健康缺乏管控的大数据基础,很难构建出有强大竞争力的人工智能产业环境。那些认为损害隐私会带来算法提升乃至获得数字经济竞争优势的想法是片面的、短视的。
  隐私滥用动摇数据基础
  盗版音乐从根本上动摇了音乐产业的价值链,对音乐产业的生产环节是毁灭性的打击,这个道理也适用于人工智能和数据生产的关系。
  对于人工智能应用来说,数据绝不是俯首可得的,这需要一个健康的产业环境,从数据收集、数据清洗、数据匹配到数据集成。一个广泛应用的人工智能应用往往要牵涉到多个产业的数据合作,这也是数据服务提供商存在的基础。
  数据服务商获取合法的数据,以脱敏操作为前提进行数据整合,并按照所服务企业的要求提供数据和分析,最终获得自身的良性发展。
  所谓数据脱敏,是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号等个人信息都需要进行数据脱敏。
  低价劣质的私盐泛滥,正规的盐业市场一定会萎缩。如果隐私数据泛滥,数据服务行业就会受到沉重的打击。
  有了近乎免费的数据资源,没有人再愿意为数据支付合理的价格。数据产业最前端的数据准备和整合环节不再能够得到合理的收益,费力却没有回报的数据基础性工作就始终无法健康发展,最终动摇整个数据产业良性发展的基础。
  当真正需要使用数据的企业在市场上茫然四顾,发现数据准备和整合的工作必须要自己从头做起,我不知道这算是什么数字化的竞争优势!
  整合善用才是关键
  在IT和互联网专业人士眼中的大数据,尤其是推动整个数字化社会层面的大数据,有更加宽广的范畴。隐私数据只是大数据蓝图中的小小一块拼图。要让社会全面进入数字化发展阶段,跨行业、跨企业、政企融合后的数据才是构建数字化社会坚实的基础。   发达国家的数据收集工作开展得并不晚,恰恰相反,政府和企业内部的数据收集与管理工作开展得更早,管理模式也更加成熟。
  以社会运行数据为例,在美国和加拿大,企业可以很容易地从政府数据库中获得特定的统计和运营数据。
  笔者以数据科学家的身份在加拿大某零售企业工作时,经常会访问政府数据库提供的脱敏后的人口地理信息数据,涵盖了年龄、性别、收入、种族、家庭结构等各种信息,其细致程度令人惊叹。
  因为数据管理科学有序,所以政府与企业在展开数据合作时障碍更少,更能够发挥数据整合的威力。
  早在十几年前,加拿大就已经出现了采集大量客户数据对社会消费特征进行整体画像的企业。这些数据收集和分析企业根据广泛收集的跨行业客户信息,把全國居民细分为68个子类,并对每个子类进行画像,抽取其消费特征和潜在需求,为零售、金融、通信等各个面向消费者服务的企业所用。目前,中国广泛收集与分析数据的能力还非常缺乏。
  从事人工智能研究的人都知道,模型训练优化时某一区域内局部的最优解,并不等于整体范围的最优解。一个好的模型会在全局范围内搜寻最优解,而不只局限于一时一地的范围进行搜寻。
  数据获取和数据使用管控作为数字化的初始环节,应该纳入到对数字化社会发展的整体影响中去分析。
  的确,隐私数据泛滥会让人工智能企业建立的门槛降低,算法的设计实现更加简单,短时间内似乎能让一切更加容易。但这些门槛的降低是以数据所有权的粗暴剥夺和算法滥用为代价的。长远来看,数据管理失控和算法滥用因为从源头上污染了数字化产业的生态环境,所以会拖累整个数字化与人工智能产业的发展。
  通过吸毒能够获取比正常生活高几倍十几倍的快感,可一旦染上毒瘾,你还能回到正常的生活轨迹上吗?绝大多数人是不行的,对于企业也是一样。当企业通过非法途径获得隐私数据并取得超出预期的优化效果,它还能够回到正常的模型优化道路上来吗?难度和瘾君子戒毒一样。
  如果没有科学的数据管理框架指导,也缺乏严格的法律保护体系支撑,人工智能技术的全面应用,带来的很有可能会是披着高科技外衣的数字化掠夺,而不是全体公民受益的数字化社会进步。
  不忘初心,方得始终。在数字化和人工智能产业发展的初期,摆正姿态,警惕旁门左道,才是持续稳定健康的产业发展正途。
  (作者为科技与互联网资深分析师,编辑:谢丽容)
其他文献
防控金融风险,加强金融监管,深化金融改革,一直是中国决策层和监管者高度重视的问题,这其中就包括对政府、企业和居民负债水平的控制。在2008年美国金融危机后,中国实施了比较激进的刺激政策以确保经济增长,地方政府和企业负债也因此大幅上升。最近几年,从中央到地方努力降低企业杠杆、严控政府债务增量,收效都比较明显。  但有关中国居民家庭债务上升的情况,一直没有引起各界高度重视。原因之一是仅看金融机构的统计
期刊
中国居民杠杆率快速上升值得警惕,因为贷款买房等刚需的存在,年轻家庭的负债增长尤其迅速,积累的潜在风险更大  1000元能干什么?对月薪1.5万元的王驿(化名)来说,这就是他一个月的所有开支。  他对《财经》记者仔细算了一笔账:早晚在家吃,每天吃饭花销不超过30元,一个月不超过600元;和朋友出去吃几顿,AA下来一次几十元;话费一个月50元;住在亲戚家不用付房租;几乎不买衣服。一个月1000元足够了
期刊
30年来,中骏集团在教育、扶贫、救灾等领域累计捐资超过3亿元人民币,坚持践行企业公民的社会责任,持续为社会创建美好幸福生活  2017年伊始,在知天命的年纪,中骏集团掌舵人黄朝阳做了一个重大决定:将总部迁入上海。  中骏集团总部如今所在的上海中骏广场位于大虹桥板块。这里是长三角地区的交通中枢,著名房地产、互联网公司云集,是上海的未来之星。中骏集团控股有限公司董事局主席,十一届、十二届全国政协委员黄
期刊
剔除掉巨头背书、雄厚资源和市场关注,这些风口上的精品电商多是传统零售,传统零售面临的库存和产品品质管理问题,它们都要面对  沉寂已久的电商创业终于在2017年下半年迎来了新生。  阿里、京东统治中国电商市场十年之久。多年来,从跨境电商、生鲜电商到美妆电商,数百亿元资本和无数玩家涌入电商创业,几乎尝试过所有品类和方式,然而这股浪潮在2016年归于沉寂——无论是从获客成本还是品类深度广度,电商创业者都
期刊
在购租并举新政落地之前,存量房市场的领头羊已经悄然完成了线上布局  “互联网的魔力就在于高频交易的商品,从线上往线下做比较容易。而低频率交易时,线下往线上做比较容易。”12月5日,在乌镇举行的第四届世界互联网大会上,链家董事长左晖在接受《财经》专访时表示,链家正在不断加快全面触网的速度,并已成为一家“以数据驱动的全价值链房产服务平台”公司。  左晖表示,相比其他传统行业,房地产行业互联网化脚步走得
期刊
风投热捧,人才集聚,中国无人驾驶技术仍难望谷歌项背,但场景落地占先,政策与城镇化给中国的弯道超车开了一扇窗  12月2日,阿尔法巴智能驾驶巴士在深圳福田保税区上路试运行,但消息被误读为“无人驾驶巴士正式上路”并广泛传播,令不少人高呼“无人驾驶”已来。  随后“正式上路”一说被辟谣,现阶段的“阿尔法巴”是有条件的自动驾驶,仍需要司机在紧急情况下接管车辆。但无人驾驶车辆上路引发的社会热议表现出公众对该
期刊
(《财经》2017年第28期“‘医养结合’难点在‘医’不在‘养’”)  长期存在的“医养割裂”沉疴有望加快破解。“十三五”健康老龄化规划明确,将大力发展医养结合服务;发展中医药特色医养,鼓励社会资本進入;养老机构内设诊所取消行政审批,实行备案管理。最近,有关医养结合的利好政策密集发布,旨在加快打通健康养老“最后一公里”。随着审批环节的松绑和社会资本的加速涌入,“医养结合”将迎来新一轮提速期,相关机
期刊
总裁更迭的背后,是阳光城的战略转向,以及公司老板的焦虑与野心。阳光城能否模仿碧桂园,用五年时间把自己从行业第26变成行业前五?  11月16日,阳光城(000671.SZ)总裁张海民离职。  张海民第一次意识到老板对自己不满意是2016年底,他让林腾蛟定年度销售目标的时候。  每到年底,从董事长林腾蛟那里得到次年的销售目标是阳光城最重要的议程之一。此前两年,张海民得到的都是一个相对模糊的答案。这让
期刊
中韩两国政治关系的回暖,还未完全转化成经济交往的复苏。中韩关系的春天或要等文在寅总统真正抵达北京之后才会到来  韩国总统文在寅将于12月13日-16日访问中国。中国外交部发言人称期待此次访问为推动中韩关系的改善发展、增进两国在朝鲜半岛等问题上的沟通协调,发挥积极作用。  中韩两国今年进入建交25周年,两国关系因韩国于2016年7月决定部署萨德反导系统而陷入僵局,经贸往来出现急冻。韩国多年来因朝核问
期刊
叶礼庭在《战士的荣耀》这本书中,以亲历者和学者的双重身份为我们细致入微地描绘了当代民族主义为很多欠发达地区带来的纷争。  与很多扶手椅上的理论家不同,作者根据自己的实际观察,对人类群体性的自恋,以及由此产生的身份建构进行了深刻洞察。简单说,人类群体会特别着迷于自己所属群体与别的群体之间的微小差异并无限放大。在此基础上,不同群体会被贴上“我们”与“他们”这样的标签;进而,一些在外人看起来十分细微的争
期刊