基于word2vec的专利文本自动分类研究

来源 :信息技术 | 被引量 : 0次 | 上传用户:jinher123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文本表示方法无法解决专利文本近义词多、语义少的问题,提出了一种词向量(word2vec)专利文本表示方法。该方法应用word2vec模型训练专利文本词向量,得到词向量后通过文档的词平均值进行文本表示,采用SVM和KNN算法实现专利文本的自动分类。最后,使用incopat专利数据库的专利文本数据集进行了方法有效性验证。实验结果表明,该方法可以有效提升专利文本分类效果,F 1值最高可提高56%。
其他文献
在现代信息技术快速发展的背景下,世界经济结构也随之发生了变化。信息技术的广泛应用给各个行业带来发展机遇的同时也带来了巨大的挑战。因此,医院需要不断完善自身信息化建设
在实时工程测量中,往往需用多个I/O端口,一般采用地址译码器、数据锁存器、数据缓冲器等元器件,按标准I/O扩展槽构成一块电路板,插到I/O扩展槽上.这样既增加了制作费用,又带
国土资源远程视频监控网系统基于视频采集与通信技术构建,由前端监控网点、中心后台和用户终端三部分组成。运用计算机网络、无线通信、光纤通信、信息数据库、地理信息等技术
让我们来尝试一下61A板MIC录入语音的方法和播放效果.首先点击光盘→电子竞赛→基础篇→语音功能→DVRFLASH,先浏览DVR FLASH.pdf文件,将要进行的工程项目的功能是:点按K1键,
有机磷农药和重金属是目前我国土壤中较常见的污染物。本文以黄瓜种子为供试作物,研究了重金属汞与农药乙酰甲胺磷单一污染及复合污染对其发芽率以及幼苗生长的毒害效应。结果
细胞因子是近年来发现的介导免疫及炎症反应的信息分子,促炎性细胞因子与抗炎性细胞因子平衡在一些临床病症中作用重大,手术创伤,感染,应激时平衡被打乱,首先表现为促炎细胞因子IL
随着网络经济飞速发展,网络被越来越多的人接受与使用,同时,人们用网络沟通、交易也日益频繁。但由于网络具有虚拟性、隐蔽性,许多不法之徒也开始利用网络大发横财。对于涉世
期刊
本文在对准噶尔盆地红山嘴油田红87井区各井所取的三叠系克上组(T2k2)岩芯观察描述及室内粒度分析的基础上,根据沉积相标志确定红山嘴油田红87井区三叠系克上组(T2k2)为辩状河沉
最近,区林业厅刘万福厅长在谈到如何搞好我区木材检查站建设和林政资源管理工作时说:自治区人民政府批准我区调整、设立205个木材检查站,充分体现了自治区领导高度重视林业,