论文部分内容阅读
摘 要: 近年来,随着计算能力的大大提高,基于海量数据和大规模参数的深度学习技术快速发展,引起了学术界和工业界的广泛关注。
本文从专利保护的角度对深度学习的发展与应用展开了研究,通过对国内外重要申请人的专利申请量进行了统计与分析,同时对重要专利展开了研究与扩展,从知识产权的角度阐述了深度学习技术的应用和发展趋势。
关键词: 深度学习;专利申请;知识产权;技术发展
第一章综述
1.1 背景和研究意义
近年来,在搜索引擎、推荐系统、图像识别、语音识别等诸多领域,深度学习有着诸多重要的应用。传统的统计机器学习中,一般要求模型使用者有大量领域知识作为基础,需要对模型进行很多特征工程和人工调节,而且模型学习到的信息较为浅层。深度学习则利用大量的参数和数据,可以学习较为深层的特征。随着互联网产生海量的数据,深度学习得到了快速的发展,性能得到快速的提升[1]。
1.2 研究方法
本文数据来源于德温特世界专利索引数据库(DWPI)和中国专利文摘数据库(CNABS),统计时间截止至2017年5月9号。在专利申请人的选取上,本文主要按照工业界和学术界两个维度进行选择,在学术界选取中科院、清华大学、北京大学、哈工大四所高校,学术界则选取了阿里巴巴、腾讯、百度三家主要的企业;同时,为了对比国内外此领域的发展状况,我们还选取了部分国外的申请人进行分析,包括IBM、谷歌、微软3家企业。
本文使用IPC结合关键词的检索方法进行研究,局限在单个IPC内进行检索可能会由于分类不准导致漏检,而单独使用关键词可能会导致引入检索到很多不相关的专利。因此本文采用的方法是在多个IPC内使用关键词进行检索,保证结果的正确性。此外,本文还使用了典型案例进行研究,深入分析了深度学习的技术结构,指出了未来专利申请或者审核中需要注意的要点。
第二章重要申请人专利统计及分析
本章通过统计深度学习领域重要申请人的专利申请情况,以此分析该领域国内外、学术界和工业界的发展情况。我们主要通过两个维度进行分析:第一是各个申请人的申请总量对比,以此作为不同申请人类型发展情况的分析依据;第二是统计典型申请人按照时间专利申请量的变化趋势,由此分析整个领域的发展趋势。
2.1 重要申请人专利量统计
图一反映了近5年基于深度学习领域重要申请人的专利申请情况,其中包括了多个申请人,在最近5年中深度学习领域的专利申请总量。
我们知道,在传统机器学习领域中,大部分的专利都会来自于学术界、工业界的申请量会相对较小。但是从图一可以看出,在深度学习领域,来自工业界的阿里巴巴、腾讯等也有一定的专利申请、并且数量与学术界的清华、北大等高校类似。说明国内工业界和学术界对此领域都非常关注。进一步分析,我们发现此领域是一个有着非常重要的实践应用的领域,而不是一个仅仅局限在学术界的一个研究领域,很多深度学习技术,都可以直接应用到工业界的产品中,比如在搜索引擎中,需要判断用户的查询与待检索的文档的相似程度,就需要利用自然语言处理判断文本的语义距离,而深度学习近年来已被广泛应用于自然语言处理。
换一个角度,随着近年来人工智能尤其是深度学习的快速发展,从学术界的成果到工业界的产品的转化周期越来越短,企业在这些领域的投入可以很快获得收益,因此我们看到在深度学习领域,我们选取的几个典型申请人中,工业界的专利申请量与学术界不相上下。由此可见,未来在类似的领域,尤其是深度学习和人工智能领域,专利保护的需求将会出现快速的增长。
其次,由图一我们看出,国外企业相对于国内企业申请申请量更大,说明国内企业在此技术方向的投入不如国外企业大。我们分析其原因,国外的典型企业包括IBM、谷歌、微软,都成立的单独的实验室用于前沿的学术研究,其中在深度学习领域有着较大的投入;相比之下,国内的企业目前在这方面的投入相对来讲就低得多,因此在专利申请量方面自然也少了很多。由此,我们可以看出国外企业在深度学习领域已经取得了先发优势,国内企业需要一定的时间和投入才能赶上最新的技术前沿发展,同时也需要注意专利领域的成果保护。
2.2 重要申请人申请量变化趋势
图二展示了本文选取的重要申请人在本领域近几年的申请量走向,从整体上看,从图中可以观察到所有申请人在该领域的专利申请量总体上呈逐年递增趋势,一方面说明了深度学习近几年的发展势头越来越强劲,另一方面也说明了一个技术领域的快速发展可以通过其专利的发展的反应出来[5]。
对比国内外企业,从增长率我们可以看出,国外企业对技术发展的敏感程度较高,在深度学习发展起来之后,可以快速地投入资源进去;而国内企业虽然也有一定程度的增长,但增长率较低。由此可见,国内的企业对于前沿技术的敏感程度和重视程度目前还有很大的提高空间。抓住这些技术变化的拐点,才有机会在未来的商业竞争中取得优势。
同时,我们看到国内的学术界和工业界的申请量对比,有着一定相关的变化趋势,说明国内目前深度学习领域的产学结合较为完善,学术界的成果可以很快应用到工业界,工业界的重要企业也愿意投入一定的资源去进行深度学习的研究。由此我们看到,深度学习作为一项新技术,在产学结合方面有着快速发展的趋势,利用这点趋势,未来深度学习的发展将愈加火热。
我们选取的重要申请人做该领域的技术带头人,其对深度学习领域的专利保护越来越重视,由此可见该领域越来越受到业界内各大企业和研究机构的重视,也意味着该领域的专利保护竞爭会愈加激烈。可以预见,在未来的几年,其专利申请量还会呈持续递增的趋势,未来的此领域专利保护工作将会愈加重要。
第三章深度学习重点专利技术分析
本章通过剖析国内外两个典型的专利申请案例,一方面分析深度学习相关专利的特征,对此领域专利申请、审查、保护都有一定的意义;另一方面,通过分析重点专利,我们可以知道目前深度学习领域的主流技术特点,也可以预见其未来发展趋势。 3.1 国内重点专利分析
在国内的重要申请人中,中科院在该领域的申请量最多,可见其在该领域的贡献之大,在众多重要专利中,我们找出如下一篇典型专利进行分析,其申请号为“CN201510270028”的专利中,公开了“一种基于深度语义特征学习的短文本聚类方法”[2]。
该申请公开了一种基于深度语义特征学习的短文本聚类方法,包括:通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示,并对得到的低维实值向量进行二值化,做为卷积神经网络[4]结构的监督信息进行误差反向传播训练模型;采用外部大规模语料无监督训练词向量,并对文本中每个词按词序进行向量化表示,做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征;得到深度语义特征表示后,采用传统的K均值算法对文本进行聚类[6]。
该申请是一个深度学习在自然语言处理领域的典型应用,通过神经网络学习文本的语义表示,然后通过特定的类标签训练端到端的神经网络,并结合了其他传统的机器学习算法如降维技术、聚类技术等,这是一个深度学习用于自然语言处理的典型流程,该流程可以作为其他申请在该领域的对比范本。
3.2 国外重点专利分析
在国外的重要申请人中,微软公司作为该领域在工业界较为核心的企业,有诸多本领域中的申请,例如,其公开的一篇专利号为“US20150074027A1”的申请中,公开了一种“Deep Structured Semantic Model Produced Using Click-Through Data”,提出了深度结构化语义模型[3]。
首先,我们看到此申请同样是端到端的设计,实际上不只是本文提到的典型案例,在诸多相关的申请中有很多都是端到端的结构,说明这是深度学习所使用的主流方法。其次,由于数据不同、训练目标不同,虽然都是端到端的结构,但是模块的选择和顺序却有着很大的不同。
该申请是深度学习领域中一个将数据与网络结构结合的典型案例,我们知道深度学习是由数据驱动的学习过程,如何将数据与网络结构结合起来是至关重要的,因此我们通过学习此案例,可以学习到如何针对不同的数据格式设计不同的输入输出结构。在比较深度学习技术的差异点时,数据结构的创新也是不容忽视的。
第四章总结与展望
本文通过从专利保护的角度出发,统计和分析了深度学习领域重要专利申请人的申请量和申请量趋势,并进一步深入剖析了国内外的典型案例。一方面,我们看到深度学习在诸多领域有着重要的应用,技术发展愈发火热,未来的专利保护竞争毕竟更加激烈,因此保护其健康发展有重要的意义;另一方面,我们看到深度学习的技术特征鲜明,其创新点的多样化,如与其他技术结合、与需求结合、通过模块的调整等,对进行发明点的构思、差异点和相似性的分析挖掘有一定的指导意义。
参考文献
[1]Goldberg Y. A Primer on Neural Network Models for Natural Language Processing[J]. Computer Science, 2015.
[2]徐博, 许家铭, 郝红卫,等. 一种基于深度语义特征学习的短文本聚类方法; CN104915386A[P]. 2015.
[3]Corporation M. Deep structured semantic model produced using click-through data[J]. 2016.
[4]Cun Y L, Boser B, Denker J S, et al. Handwritten digit recognition with a back-propagation network[C]// Advances in Neural Information Processing Systems. Morgan Kaufmann Publishers Inc. 1990:396-404.
[5]余凱, 贾磊, 陈雨强,等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展, 2013, 50(9):1799-1804.
[6]孙吉贵, 刘杰, 赵连宇. 聚类算法研究[J]. 软件学报, 2008, 19(1):48-61.
[7]吴晓婷, 闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究, 2009, 26(8):2832-2835.
本文从专利保护的角度对深度学习的发展与应用展开了研究,通过对国内外重要申请人的专利申请量进行了统计与分析,同时对重要专利展开了研究与扩展,从知识产权的角度阐述了深度学习技术的应用和发展趋势。
关键词: 深度学习;专利申请;知识产权;技术发展
第一章综述
1.1 背景和研究意义
近年来,在搜索引擎、推荐系统、图像识别、语音识别等诸多领域,深度学习有着诸多重要的应用。传统的统计机器学习中,一般要求模型使用者有大量领域知识作为基础,需要对模型进行很多特征工程和人工调节,而且模型学习到的信息较为浅层。深度学习则利用大量的参数和数据,可以学习较为深层的特征。随着互联网产生海量的数据,深度学习得到了快速的发展,性能得到快速的提升[1]。
1.2 研究方法
本文数据来源于德温特世界专利索引数据库(DWPI)和中国专利文摘数据库(CNABS),统计时间截止至2017年5月9号。在专利申请人的选取上,本文主要按照工业界和学术界两个维度进行选择,在学术界选取中科院、清华大学、北京大学、哈工大四所高校,学术界则选取了阿里巴巴、腾讯、百度三家主要的企业;同时,为了对比国内外此领域的发展状况,我们还选取了部分国外的申请人进行分析,包括IBM、谷歌、微软3家企业。
本文使用IPC结合关键词的检索方法进行研究,局限在单个IPC内进行检索可能会由于分类不准导致漏检,而单独使用关键词可能会导致引入检索到很多不相关的专利。因此本文采用的方法是在多个IPC内使用关键词进行检索,保证结果的正确性。此外,本文还使用了典型案例进行研究,深入分析了深度学习的技术结构,指出了未来专利申请或者审核中需要注意的要点。
第二章重要申请人专利统计及分析
本章通过统计深度学习领域重要申请人的专利申请情况,以此分析该领域国内外、学术界和工业界的发展情况。我们主要通过两个维度进行分析:第一是各个申请人的申请总量对比,以此作为不同申请人类型发展情况的分析依据;第二是统计典型申请人按照时间专利申请量的变化趋势,由此分析整个领域的发展趋势。
2.1 重要申请人专利量统计
图一反映了近5年基于深度学习领域重要申请人的专利申请情况,其中包括了多个申请人,在最近5年中深度学习领域的专利申请总量。
我们知道,在传统机器学习领域中,大部分的专利都会来自于学术界、工业界的申请量会相对较小。但是从图一可以看出,在深度学习领域,来自工业界的阿里巴巴、腾讯等也有一定的专利申请、并且数量与学术界的清华、北大等高校类似。说明国内工业界和学术界对此领域都非常关注。进一步分析,我们发现此领域是一个有着非常重要的实践应用的领域,而不是一个仅仅局限在学术界的一个研究领域,很多深度学习技术,都可以直接应用到工业界的产品中,比如在搜索引擎中,需要判断用户的查询与待检索的文档的相似程度,就需要利用自然语言处理判断文本的语义距离,而深度学习近年来已被广泛应用于自然语言处理。
换一个角度,随着近年来人工智能尤其是深度学习的快速发展,从学术界的成果到工业界的产品的转化周期越来越短,企业在这些领域的投入可以很快获得收益,因此我们看到在深度学习领域,我们选取的几个典型申请人中,工业界的专利申请量与学术界不相上下。由此可见,未来在类似的领域,尤其是深度学习和人工智能领域,专利保护的需求将会出现快速的增长。
其次,由图一我们看出,国外企业相对于国内企业申请申请量更大,说明国内企业在此技术方向的投入不如国外企业大。我们分析其原因,国外的典型企业包括IBM、谷歌、微软,都成立的单独的实验室用于前沿的学术研究,其中在深度学习领域有着较大的投入;相比之下,国内的企业目前在这方面的投入相对来讲就低得多,因此在专利申请量方面自然也少了很多。由此,我们可以看出国外企业在深度学习领域已经取得了先发优势,国内企业需要一定的时间和投入才能赶上最新的技术前沿发展,同时也需要注意专利领域的成果保护。
2.2 重要申请人申请量变化趋势
图二展示了本文选取的重要申请人在本领域近几年的申请量走向,从整体上看,从图中可以观察到所有申请人在该领域的专利申请量总体上呈逐年递增趋势,一方面说明了深度学习近几年的发展势头越来越强劲,另一方面也说明了一个技术领域的快速发展可以通过其专利的发展的反应出来[5]。
对比国内外企业,从增长率我们可以看出,国外企业对技术发展的敏感程度较高,在深度学习发展起来之后,可以快速地投入资源进去;而国内企业虽然也有一定程度的增长,但增长率较低。由此可见,国内的企业对于前沿技术的敏感程度和重视程度目前还有很大的提高空间。抓住这些技术变化的拐点,才有机会在未来的商业竞争中取得优势。
同时,我们看到国内的学术界和工业界的申请量对比,有着一定相关的变化趋势,说明国内目前深度学习领域的产学结合较为完善,学术界的成果可以很快应用到工业界,工业界的重要企业也愿意投入一定的资源去进行深度学习的研究。由此我们看到,深度学习作为一项新技术,在产学结合方面有着快速发展的趋势,利用这点趋势,未来深度学习的发展将愈加火热。
我们选取的重要申请人做该领域的技术带头人,其对深度学习领域的专利保护越来越重视,由此可见该领域越来越受到业界内各大企业和研究机构的重视,也意味着该领域的专利保护竞爭会愈加激烈。可以预见,在未来的几年,其专利申请量还会呈持续递增的趋势,未来的此领域专利保护工作将会愈加重要。
第三章深度学习重点专利技术分析
本章通过剖析国内外两个典型的专利申请案例,一方面分析深度学习相关专利的特征,对此领域专利申请、审查、保护都有一定的意义;另一方面,通过分析重点专利,我们可以知道目前深度学习领域的主流技术特点,也可以预见其未来发展趋势。 3.1 国内重点专利分析
在国内的重要申请人中,中科院在该领域的申请量最多,可见其在该领域的贡献之大,在众多重要专利中,我们找出如下一篇典型专利进行分析,其申请号为“CN201510270028”的专利中,公开了“一种基于深度语义特征学习的短文本聚类方法”[2]。
该申请公开了一种基于深度语义特征学习的短文本聚类方法,包括:通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示,并对得到的低维实值向量进行二值化,做为卷积神经网络[4]结构的监督信息进行误差反向传播训练模型;采用外部大规模语料无监督训练词向量,并对文本中每个词按词序进行向量化表示,做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征;得到深度语义特征表示后,采用传统的K均值算法对文本进行聚类[6]。
该申请是一个深度学习在自然语言处理领域的典型应用,通过神经网络学习文本的语义表示,然后通过特定的类标签训练端到端的神经网络,并结合了其他传统的机器学习算法如降维技术、聚类技术等,这是一个深度学习用于自然语言处理的典型流程,该流程可以作为其他申请在该领域的对比范本。
3.2 国外重点专利分析
在国外的重要申请人中,微软公司作为该领域在工业界较为核心的企业,有诸多本领域中的申请,例如,其公开的一篇专利号为“US20150074027A1”的申请中,公开了一种“Deep Structured Semantic Model Produced Using Click-Through Data”,提出了深度结构化语义模型[3]。
首先,我们看到此申请同样是端到端的设计,实际上不只是本文提到的典型案例,在诸多相关的申请中有很多都是端到端的结构,说明这是深度学习所使用的主流方法。其次,由于数据不同、训练目标不同,虽然都是端到端的结构,但是模块的选择和顺序却有着很大的不同。
该申请是深度学习领域中一个将数据与网络结构结合的典型案例,我们知道深度学习是由数据驱动的学习过程,如何将数据与网络结构结合起来是至关重要的,因此我们通过学习此案例,可以学习到如何针对不同的数据格式设计不同的输入输出结构。在比较深度学习技术的差异点时,数据结构的创新也是不容忽视的。
第四章总结与展望
本文通过从专利保护的角度出发,统计和分析了深度学习领域重要专利申请人的申请量和申请量趋势,并进一步深入剖析了国内外的典型案例。一方面,我们看到深度学习在诸多领域有着重要的应用,技术发展愈发火热,未来的专利保护竞争毕竟更加激烈,因此保护其健康发展有重要的意义;另一方面,我们看到深度学习的技术特征鲜明,其创新点的多样化,如与其他技术结合、与需求结合、通过模块的调整等,对进行发明点的构思、差异点和相似性的分析挖掘有一定的指导意义。
参考文献
[1]Goldberg Y. A Primer on Neural Network Models for Natural Language Processing[J]. Computer Science, 2015.
[2]徐博, 许家铭, 郝红卫,等. 一种基于深度语义特征学习的短文本聚类方法; CN104915386A[P]. 2015.
[3]Corporation M. Deep structured semantic model produced using click-through data[J]. 2016.
[4]Cun Y L, Boser B, Denker J S, et al. Handwritten digit recognition with a back-propagation network[C]// Advances in Neural Information Processing Systems. Morgan Kaufmann Publishers Inc. 1990:396-404.
[5]余凱, 贾磊, 陈雨强,等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展, 2013, 50(9):1799-1804.
[6]孙吉贵, 刘杰, 赵连宇. 聚类算法研究[J]. 软件学报, 2008, 19(1):48-61.
[7]吴晓婷, 闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究, 2009, 26(8):2832-2835.