面向专利数据的表示学习方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:liyizhong1235
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利数据是人们在生产和科研活动中发明创造的技术信息的集合,可以反映各技术领域中的最新技术动向和发展趋势,是促进自主创新和提高国家竞争能力的战略性信息资源。专利数据不仅包含技术描述文本,还包含发明人、申请人、专利引用及层次标签等信息,丰富的数据种类体现专利数据的异质特性。大多专利分析方法面临大数据学习问题,需要利用表示学习方法,实现对信息的压缩和融合。对专利数据进行表示学习,旨在研究专利文本及其多种异质信息,利用表示学习方法将专利数据转化为低维稠密的向量表示,充分挖掘战略竞争情报,具有较强的理论意义和应用价值。现有的面向专利数据的表示学习方法多针对专利文本进行研究,但专利文本通常具有很强的专业性和创新性,多义词和同义词极大地影响表示学习效果;同时专利数据为具有异质特性的半结构化数据,现有方法未充分利用其异质信息,难以适应其复杂的数据结构。本文综合考虑专利数据的异质特性,首先针对专利文本表示中存在的多义词词义辨析和同义词词义关联问题,研究融合文本、发明人、申请人的专利表示学习方法;其次,分析专利引文和层次标签所体现的专利数据在结构和文本语义上的关联关系,研究融合文本、引用关系、层次标签的专利表示学习方法。本文的主要贡献如下:1.提出融合异质主题模型和词嵌入的专利文本表示方法(HTW)。该方法利用专利数据的异质特性,构建融合专利文本、发明人和申请人的异质主题模型,以发明人、申请人的领域信息区别多义词在不同专利中的词义,引入词嵌入增强对同义词的语义关联。将模型应用于专利推荐任务,实验结果及案例分析表明HTW模型获取的专利文本表示能有效学习同义词和多义词的语义信息,提高专利推荐任务的精确度。2.提出融合层次标签的专利属性网络表示学习方法,生成融合文本、引用关系、层次标签的专利表示。首先尝试将层次标签信息融入网络嵌入中,提出层次标签增强的属性网络嵌入框架(HLANE),以现有的网络嵌入方法获取初始化专利表示,通过标签-属性注意力层建模标签层之间的关联关系,指导专利在不同层次的学习,生成多层次的专利表示;其次,在HLANE基础上,深入研究联合学习和数据分布不平衡问题,提出融合层次标签分布的专利属性网络嵌入(HANS),通过构建有向层次结构编码器,对标签依赖关系建模,拟合层次标签分布,再构建基于注意力的融合模块来实现层次标签和网络结构的联合学习。实验表明本文提出的方法能够利用层次标签信息强化专利表示。
其他文献
作为公共图书馆向家长和孩子们展示的一张名片,少儿阅读推广活动品牌在一定程度上代表着图书馆的整体形象,同时还搭载了图书馆面向少儿群体推行的阅读推广服务的内涵和价值。因此公共图书馆开展少儿阅读推广活动品牌化能够利用品牌效应有效提升公共图书馆本身的社会影响力和知名度。但是总体来看,目前我国对于公共图书馆少儿阅读推广活动品牌化的相关研究文献数量较少,且大多都是集中于某个具体案例的研究,缺乏对活动品牌化实践
学位
零样本学习是计算机视觉和迁移学习领域的一个重要的研究课题。零样本学习的任务是依据一些已知类别的图像数据,然后辅以相关的先验信息,进而学习出一个泛化能力强大的模型来实现对未知类别的图像样本的分类。尽管研究者们提出了许多方法来解决零样本学习问题,但是它仍然是一个具有挑战性的课题。近些年来,基于图卷积网络模型的零样本学习方法在零样本学习领域取得了优异的性能。这些方法的主流思路是利用图卷积网络模型来对不同
学位
多视图的表示学习旨在利用来自不同角度或不同数据源的特征学习数据的表示。对于图结构数据,多图学习的目的是通过多个图结构数据的协同学习,挖掘多个视图间的互补信息。近年来,图神经网络(Graph Neural Networks,GNNs)在图结构数据的表示学习方面取得了巨大的成功。现有的图神经网络模型通常可以分为图卷积网络、图注意力网络、图自编码器和图生成网络等。然而,许多传统的图神经网络模型利用固定的
学位
车辆路径问题广泛存在于生活中的诸多方面,如街道垃圾清理、物流配送、集装箱码头堆场作业等。作为求解车辆路径问题的常见方法,元启发式算法可以在合理的时间内获得一个较好的路径方案。然而,随着问题规模的增加,已有元启发式方法往往会出现效果变差、耗时变得不可接受等问题,因此如何提高元启发式算法处理大规模车辆路径问题的能力是一个具有挑战的问题。此外,由于不同的元启发式搜索策略在不同问题实例上往往具有不同的性能
学位
稀疏多目标优化问题(Sparse Multi-Objective Optimization Problems)由于其在机器学习、网络科学及其他许多领域都具有广泛的应用,近年来愈加受到进化计算领域的关注和研究。但现有多目标进化算法在稀疏多目标优化问题上的性能仍然有待进一步研究,目前尚没有专门针对稀疏多目标优化问题设计的性能评价指标。现有的性能评价指标仅关注算法在目标空间的收敛性和多样性而忽视了决策空
学位
深度神经网络广泛应用于许多领域,但仍然面临对抗攻击带来的风险。对抗攻击是对输入样本添加不易察觉的扰动来产生对抗样本,并欺骗神经网络将样本识别为错误的类别。为了提高深度神经网络对于对抗攻击的鲁棒性,国内外的研究者们分别从攻击和防御的角度出发进行了各种研究。在对抗攻击方面,包括密集对抗攻击和稀疏对抗攻击;在对抗防御方面,包括对抗训练和其他数据增强方法等。现有的攻击算法大多为密集对抗攻击或扰动明显的稀疏
学位
随着传感器的普及率不断提升,摄像机被布置在城市的每一个角落。摄像机网络常被用于区域监控,灾难响应,环境监控等等。在多个相机复杂场景下,可检测的视野范围更广阔,但是如何更好地利用多个相机的数据,是一个重要的问题。同时,仅通过人工检索的方式已经不能满足人们的需求。因此,需要一个能在多个相机环境下进行有效目标跟踪的算法来代替人工检索。多个相机间的目标跟踪,即利用多个摄像机协同完成对目标的跟踪过程,是目标
学位
图像分类、目标检测和语义分割是计算机视觉领域的三个基本任务。目标检测要求同时确定图片中目标的类别和位置。遥感图片中的目标具有任意的旋转方向,且目标尺寸差异较大,因此检测难度更大。本文主要研究基于单阶段检测框架与卷积区域重配准的遥感图像中的旋转物体检测算法,主要贡献如下:(1)基于卷积区域重配准的遥感单阶段目标检测研究本文提出一种由粗糙到精细的单阶段目标检测器,主要包括一个增强的特征金字塔网络、多尺
学位
数字媒体技术的日益普及,使数字信息的传输和共享更加便捷。但信息传输中存在如信息泄露、信息遭篡改等信任问题,严重威胁信息安全。因此,作为一门能够在密文信号中嵌入识别信息、无误差地提取信息并无损恢复原始信号的关键技术,密文图像可逆信息隐藏(Reversible Data Hiding in Encrypted Images,RDHEI)技术逐渐成为信息安全与多媒体处理领域的交叉研究热点。本文探究现存R
学位
蛋白质和RNA分子的相互作用在许多细胞过程中起着重要作用,例如基因表达,转录和翻译。它们之间的相互作用需要先确定哪些蛋白质可以与RNA结合,即确定RNA结合蛋白;其次,该RNA结合蛋白的特定残基将与RNA的特定核苷酸相结合以执行其细胞功能,如果结合错误或失败,那么可能会导致生物细胞功能紊乱,进而引起各种生物遗传疾病。对于RNA-蛋白质相互作用的研究,高通量技术的全基因组预测方法虽然准确性非常高,但
学位