半结构化文档特征抽取方法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:hbjxwjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利文本记录了大量的科技成果信息,受到了人们的高度关注。随着互联网的快速发展,专利文本数量不断增多,如何从纷繁冗杂的专利文本中高效地抽取其中关键特征一直都是自然语言处理的基础研究问题。然而,现有的面向专利文本的特征抽取还未取得十分令人满意的效果,对专利文本特征抽取的准确度需进一步提高。针对以上问题,论文提出一种无监督的融入公共知识的TextRank专利关键词提取模型,该模型有效地利用了先验公共知识。具体而言,首先,考虑以下两点:1)为每个专利文本构建TextRank网络,2)基于公共词典数据构建先验知识网络,其中网络边表示词典中所有词典词之间的先验解释关系;其次,引入先验知识网络中的先验特征到专利文本的TextRank网络中,并设计一个改进的节点秩值评估公式;最后,通过寻找节点秩值较高的前k个候选关键词作为专利关键词。在实验中,进行专利文本聚类性能以及与标准关键词性能对比实验验证提取关键词的准确性。相应的实验结果表明,在无监督的情况下,新方法在专利文本关键词提取任务中可以获得明显优于现有方法的性能。另外,论文充分考虑专利文本中半结构化语义特征,创新专利文本表示方法,提出一种基于联想网络的专利技术演化脉络分析方法。新方法首先将各条专利权利要求书视为独立段落,根据权利要求书间的引用关系,构造段落间的上下位语义关联关系,同时联合段落内的共现关系形成一种针对专利文本的表示——专利联想网络;然后提出时空维度TextRank模型计算全局网络节点权重,并根据节点权重筛选技术词,实现联想网络的约简重构;继而利用AP聚类算法得到代表性技术词作为种子集合,在相邻时间片网络中根据路径联想强度平均值最优得到相邻网络演化路径;最终合并路径重复节点实现技术词演化脉络抽取分析。实验结果验证了新方法获得的技术词演化脉络的有效性,为专利技术演化脉络分析提供新思路。
其他文献
细粒度图像分类是指对大类下的子类进行更加精细的划分,比如区分一只鸟是海鸥还是大雁。随着人工智能的发展,同一基本类别下的物体的子类别分类的需求日益增多,如商品的品牌分类、植物研究领域的植物分类、车辆的型号和品牌分类等。然而,由于细粒度图像类别之间的差异很小,类别内部差异较大的原因,细粒度图像分类是一项非常困难的任务。由于子类别通常具有较小的类间差异,需要靠微小的局部差异对类别加以区分。论文在深度学习
聚类算法作为模式识别、数据挖掘领域的重要研究内容,受到研究者的广泛关注。近年来,许多对团簇状的数据表现出较好性能的聚类算法被提出,但面对结构复杂、边界不易区分、非球形分布和高维的数据集,单个聚类算法很难得到较好的聚类结果,集成聚类算法则可以解决上述问题。本文从多个方面研究集成聚类算法,并对集成聚类算法进行改进,具体研究内容如下:1.提出一种超簇加权的集成聚类算法。由于大多数集成聚类使用K-mean
目前多视角聚类已取得了重要进展,但仍然面临诸多挑战,其中一个关键的挑战是:尽管大部分多视角聚类方法提出了不同的视角协同机制,但大部分方法在进行多视角协同时间,仅利用显式的原始空间信息或者仅利用某些隐性空间的信息,因而未能充分实现显隐信息间的协同。此外,拓扑结构是数据集的重要的信息,但多数多视角聚类算法进行协同学习时,未能充分利用此类信息进行协同。针对上述挑战,本文提出了两个多视角聚类算法,较之于目
锅式杀青是由茶农在锅内翻炒茶叶,并根据茶叶气味及颜色的差异及时调节锅温,改变茶叶受热量。因人工感官反馈控制的优势,这种杀青方式主要用来处理名贵茶叶。然而受主观因素和环境因素的影响,这种杀青方式均一性较差,且手工控制锅温,耗费人力。因此,本文以绿茶鲜叶为实验材料,利用PEN3电子鼻和视觉在线检测技术代替人的嗅觉和视觉,对不同恒定锅温杀青过程中绿茶气味和颜色进行测量并对其变化规律及变化机理进行研究,同
近年来,随着网络、大数据、人工智能的飞速发展,在网络成为人们生活中不可或缺的一部分的同时,自媒体行业也日益壮大。网络中不可避免的呈现出一些非合规图片。这不仅污染了网络环境,也在一定水平上影响到了人们的身心健康。其次,在信息时代的成长下,深度学习成为这个范畴比较突出的一个方面。一般来说,深度学习会耗费了大批的计算力和内存等。对神经网络来讲,神经网络越精密,所获得的成果就会越准确。这使得经过深度学习后
艺术品的量化评估是实验美学、计算美学、计算机艺术、人工智能艺术等许多领域的基础。计算美学领域的研究集中于图形艺术客观物理特征的测量和计算,而实验美学领域的研究则集中于主观心理感受的量化。这些研究为审美对象提出了多样化的美学评估指标和方法,但在很大程度上忽略了书画作品的“可追溯感”的美学评估。可回溯感是艺术欣赏和临摹中想象地再现原作创作行为的一种审美体验,其本质是与创作者产生“共情”。书法的这一审美
本文主要针对具有周期性变化图案的纺织品,研究对其瑕疵部分进行检测的算法。在传统图像处理领域,针对纺织品图像由于在拍摄生成的过程中存在的拉伸和旋转形变,提出一种图像校正方法,将不同程度变化的不规则图案校正为符合图像本身周期规律的整齐图案。在深度学习领域,在传统自编码器的基础上加入SSIM损失函数和高斯噪声项,以提高对图像的重构能力,用于将有瑕疵的图像重构为无瑕疵图像,以实现对瑕疵部分的识别。利用深度
图像融合是一种图像增强技术,通过将不同类型的传感器获得的图像组合起来,从而生成具有丰富信息和鲁棒性良好的融合图像,以便后续的图像处理。图像融合技术广泛使用在军事、遥感、安全监控和医学图像等领域。融合方法设计的关键是高效的图像信息抽取和合适的融合规则,并且要避免人工因素对融合结果的影响。传统的图像融合算法基于手工设计融合规则,算法复杂且运行速度慢,泛化能力及鲁棒性较差。随着深度学习在图像融合上的应用
获取大型的带注释数据集是非常昂贵的,需要从现有标签的数据集到未标记的数据的转移过程。然而,特定应用程序相关的数据通常与公开可用的数据集不同,因为这些特定的数据是来自不同的领域。虽然域自适应在利用源领域的标记数据来学习未标记目标领域的精确分类器方面已经取得了巨大的成功,但是这些域自适应算法都是在源域与目标域具有相同类别,利用标签丰富的源域信息对标签稀少且分布相似的目标域数据进行迁移学习。然而,由于现
随着中国传统文化逐渐走向世界,在数字化平台传播、宣传、弘扬中国非物质文化遗产也成为了学界和产业界共同努力的目标。因此,以中国传统文化、传统艺术、非遗文化为主题的应用程序层出不穷。而江苏宜兴的传统紫砂文化在数字化平台上一直处于发展的初期,其界面以图文介绍和商品交易为主要功能,界面的视觉设计也显得相对简单。在以文化传播为主要功能的应用程序案例的借鉴下,在图形化界面和动画交互界面的发展现状下,论文试图通