【摘 要】
:
专利分类可以加快对专利文献的检索速度,方便对专利文献的管理,有着十分重要的作用。近几年,自然语言处理以及信息检索技术的发展,为解决专利分类任务提供了强大的方法论武器
论文部分内容阅读
专利分类可以加快对专利文献的检索速度,方便对专利文献的管理,有着十分重要的作用。近几年,自然语言处理以及信息检索技术的发展,为解决专利分类任务提供了强大的方法论武器,如何根据专利分类任务的特殊性选择合理的解决方法成为提高分类系统性能的关键。大量研究表明,在专利分类任务中,数据稀疏问题一直是影响专利分类性能的主要障碍;除此之外,专利的类别体系是一个多层次的树形结构,同一父节点下的子类样本之间相似性较大,因此,加剧了专利的分类难度。本文针对专利的上述特点提出基于潜在语义分析的专利自动分类技术,它利用奇异值分解,把大量共现或相关的特征映射到潜在语义空间的同一维上,深度挖掘出原始特征-文档矩阵的潜在关系;通过降维,把原始的高维空间投影到低维的语义空间,在保证原始特征文档矩阵最有效的语义关系的同时,尽可能地压缩了无效的、无关的噪声信息,从而保证了K维空间的丰富的语义特征,是一种有效解决数据稀疏问题的手段。针对分类任务的特殊性,本文结合专利文本的类别信息还提出基于类别信息指导的潜在语义分析优化方法,通过增强相同类内的特征共现程度获得更准确的潜在语义空间,使得相同类别专利文本之间的相似性更明显,从而提高专利分类的性能。本文基于NTCIR-8专利分类评测的平台,在美国专利语料上实现基于潜在语义分析的专利自动分类系统,并以基于共享最近邻的专利分类系统为参照,针对专利分类任务中的主要问题和核心技术做了相关试验,并做了详细的试验结果分析,最终实现了可靠的专利自动分类系统。
其他文献
随着人体衰老进程, 听觉、视觉、嗅觉等感觉功能逐渐出现不同程度的衰退, 且多与认知功能低下、神经退行性变等相伴随, 对感觉功能减退的早期筛查、及时干预或许能延缓痴呆进
伴随着互联网的蓬勃发展,IPV6和物联网的实施已经将网络节点扩展到生活的各个角落,而网络的多点通信应用离不开组播技术的支持。在传统的组播中,为每个组播组建立一棵组播树
流体的模拟是计算机图形学领域研究的重点,烟雾作为流体的重要组成部分,其模拟受到愈来愈多的关注。烟雾运动的模拟一般有两种方法,基于粒子系统的烟雾模拟与基于物理模型的
随着互联网迅速发展,网络资源爆炸性增长,传统处理浩瀚Web文档的方式,越来越无法完整、准确和快速的提取蕴含于Web文档中的语义信息,针对这种情况,诸葛海研究员提出了语义链
多源信息融合技术已经在诸多领域中得到了应用,但是目前多源信息融合正面临着日渐突出的信息类型不一致问题。传统的数据融合方法在处理异类信息问题时缺乏有力的数学基础,无
当前数控机床已经在很多机械产品加工行业得到了广泛的应用,数控机床是一个复杂的精密的综合加工平台,随着多学科问的交叉融合,特别是计算机技术、人工智能技术、传感器技术
随着网络技术和电子技术的发展,图像数量呈井喷式增长。如何从网络或者特定图像库中有效地获取合适的图像来满足人们的需求显得尤为重要,成为当今的研究热点。目前,图像检索
辐射虚拟人模型是进行辐射模拟的重要条件,因此研究辐射虚拟人模型的建模方法具有重要意义。目前主流的辐射虚拟人模型是层析式模型,但绝大多数模型都是站姿的——这不符合实
路由协议作为无线传感器网络核心技术之一,它的性能直接影响整个网络的运行效率。机会路由通过一种路由推迟策略充分利用了无线信道的广播特性,可以有效提高无线网络的传输可靠