论文部分内容阅读
康执玺用鼠标从屏幕边上拖来一些长方形的模块,并把它们用线依次连接起来,一个人工智能机器学习的模型就做好了,前后用了不到一刻钟。根据模型初始数据的不同,这个模型可以有不同的功能,例如识别信用卡诈骗,或是检测垃圾邮件。
“如果没有先知平台,搭建一个识别信用卡诈骗模型可能需要花费数据团队几个月的时间,”康执玺告诉《第一财经周刊》,“普通技术员工经过一个月的训练,差不多能熟练使用先知平台上的模型。”康执玺是第四范式先知平台的产品负责人,为了让普通技术人员也可以轻松搭建机器学习模型,他和团队已经不间断工作了一年之久。
第四范式是一个提供AI机器学习模型的通用型平台。该公司的算法工程团队开发了一系列的基础设施组件,以此组成了大规模分布式机器学习框架(General Distributed Brain Technology,GDBT)。康执玺称,未来两年,普通技术人员可以在“先知平台”上做出类似AlphaGo复杂度的人工智能,“这里面的难点不是AlphaGo本身,难点是如何让普通人也可以做出AlphaGo”。
目前市面上比较流行的计算框架,例如Hadoop、Sparkd更适合执行传统的数据仓库技术(ETL)任务。而第四范式“先知平台”的框架由C++语言编写,可以在单机、MPI、Yarn、Mesos等多个分布式环境运行,例如很多企业在计算时所用的硬件资源并不相同,GDBT可以针对不同的硬件资源、不同的算法场景,就调度、计算模式、机器学习算法部件的抽象等做优化。
成立两年多来,第四范式相继拿到红杉资本和创新工场数千万元人民币的天使轮和A轮融资。虽然还没实现自负盈亏,但是创始人戴文渊称,公司已经开始有了营收。
AI for Everyone,这既是第四范式的公司目标,也是戴文渊2014年决定从华为诺亚方舟实验室离职创业的原因。在这之前,他最常问自己的问题是“人工智能要创造更大的价值,要通过什么方式去做”。
过去十几年,人工智能在学术领域一直处于发展瓶颈期。直到2007年左右,还在读硕士的戴文渊和一些同行感觉到机器学习在理论上取得了很大进展,这时候就需要海量数据来推动人工智能的发展。戴文渊认为,这个机会很可能发生在互联网公司,于是2009年他进入百度工作,参与搭建百度凤巢。这是一个全新的广告销售系统,百度凤巢系统背后的人工智能需要识别信息、广告,以及智能地匹配不同的权重因素。
作为百度凤巢的总架构师,戴文渊需要当一个全才—不只要懂机器学习的原理,还要精通数学统计、编程、分布式计算,以及要有很强的架构能力。“不仅要设计算法,还要懂业务”,戴文渊为此专门用半年的时间学习网络营销,只有这样才能明白人工智能可以应用在哪些方面。百度凤巢用了三四百人,花了三四年才做出来,投入的成本之大,甚至影响到了百度公司的业绩,为此李彦宏还出面向股东做过解释。不过,如今百度凤巢已经成为拉动百度利润增长的核心,人工智能终于有了产业效果。
对于戴文渊来说,百度凤巢的成功意味着AI for Someone已经实现,更关键的是,他从中看到了AI for Everyone的机会。但是让人工智能服务每个技术人员的目标还有重重困难,当前,绝大多数的AI技术都集中在Google、Facebook、百度等互联网公司巨头手中,作为商业公司的它们不可能将AI核心技术完全开放出来。比如Google,虽然开源了深度学习系统TensorFlow,但是这套系统上手难度高,另一方面,与Google自家的服务深度绑定,对于不想依附Google的中小企业并不友好。
因此戴文渊认为,与其等待大公司的“施舍”,不如做一家人工智能的企业服务公司,专门为那些养不起大型AI团队的公司提供AI服务。
在构建百度凤巢时,戴文渊开始尝试简化搭建机器学习模型的工程。工作之余,他动手写了一堆机器学习的组件,并找来一个实习生,让后者通过这些机器学习组件搭建一个全新的模型。短短一个月,这名实习生做出了一个机器学习的模型。这个结果让戴文渊很振奋,如果一个实习生一个月就能做出来一个机器学习模型,那招来10个实习生,经过培训,一年就能服务120个客户。事实上,这也成为第四范式最初的运作模式。
然而这种模式很快就遇到了问题。首先是人才的短缺,戴文渊意识到这相当于把人工智能公司做成劳动密集型公司,但人工智能的人才资源严重不足。另一方面,由于出售的产品是一套机器学习的模型,买家只能使用却无法修改,一旦出了问题或者遇到需要调整的地方,还需要第四范式再次提供服务。
因此在最初阶段,金融客户只愿意把一些非核心的的项目外包给第四范式。对于大型金融机构来说,风险控制是业务核心,交给第三方公司去做相当于命脉交到其他人手里,这是它们无法接受的。
了解到实际的客户需求后,戴文渊意识到第四范式还是要做一个通用型平台,“就像在卖建造机器学习模型的钉子和锤子”。在这种模式下,第四范式只负责提供机器学习的工具,工具用来做什么就与他们无关了。一个金融机构购买先知平台后开发了十几套机器学习模型,至于有没有用来开发风控模型这些核心产品,“这就是商业机密了,我们也不清楚”,戴文渊说。
虽然看起来产品形态更加简单了,开发难度反而比之前大了好几倍。从产品上看,钉子和锤子因为要给普通人用,所以耐用性要好,比如对于建模时所输入的数据不能挑剔,即使数据有空缺、格式不对,也不可以宕机。从内核上看,考虑到工具将来的迭代发展,底层代码要从头开始写,原来戴文渊在百度凤巢时写的组件不够用了。
在这之后,第四范式的算法工程团队开发了一系列基础设施组件,逐步搭建了一套大规模分布式机器学习框架GDBT。现在,先知平台已经开发出2.0版本,无论建模还是评估,只要从应用左侧拖动相应的组件并连接,就能完成计算,而且每套先知平台都可以像Office工具一样反复使用。不过,与传统企业工具的销售模式不同,不同版本的先知平台根据所能调用的运算核心来定价,售价越高,所能调用的核心越多,建模时的数据处理能力也就越强。
金融业也是最符合人工智能应用场景的领域。人工智能第一波商业化应用就在华尔街的高频交易上。戴文渊称,全国性的股份制商业银行已购买先知平台。据第四范式提供的数据,某家股份制商业银行基于先知平台搭建的交易分期服务,40天内交易分期的响应率提升了68%。11月初结束的第三届世界互联网大会上,第四范式公布了先知平台的公有云版本,戴文渊也离他设想的AI for Everyone更近了一步。目前,先知平台业务的主要拓展方向仍然集中在金融领域。戴文渊表示,选择金融作为切入口的直接原因就是数据,一般来讲,传统企业比较忽视数据积累,而金融业的优势在于业务数据保存得很完整。对于机器学习模型来说,原始数据质量越高、数量越大,建造出的模型就越好。