基于知识图谱的非结构化关联规则抽取研究及应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:tatimess
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱用一种结构化的方式存储现实世界存在的知识,由于其知识易于被计算机处理,因此在自然语言处理的许多任务中它都起着极其重要的作用。虽然从绝对数量上来看,现有知识图谱已经包含了海量的三元组事实,但是与真实世界中存在的知识相比它远远不够,因此如何完善知识图谱成为目前的研究热点。本文提出了一种基于非结构化文本增强关联规则的知识推理方法(NaturalLanguageEnhancedAssociationRulesMining,NEARM)。使用该规则可以将自然文本中包含的三元组事实推理出来用以完善知识图谱。本文的工作有:
  1.为了从非结构化的文本中抽取三元组事实,本文使用密度峰值算法对关系文本聚类,其中涉及到的句子相似度计算使用改进的LSWMD算法。为了提高算法效率,本文还利用基于K-BoD的文本聚类算法对其进行改进。
  2.为了将类簇建模为一个统一的表达方式放入到非结构化关联规则中,本文提出了改进的BoD(BoD-GS,基于高斯分布的文本模式建模)和BoD-TDGS(基于二维高斯分布的文本模式建模)来建模关系文本。实验结果表明,较于BoD-GS,BoD-TDGS更为准确合理。
  3.研究上述模型得到的文本类簇,可以发现在正常的自然语言表述中,符合这些表达模式的文本所包含的主语和宾语倾向于拥有类似的属性值。将这些规律进行建模可以辅助从更多的文本中抽取三元组事实。在关联规则挖掘算法的启发下,本文提出并研究了非结构化文本增强的关联规则挖掘,将自然语言文本引入到关联规则中。得到的关联规则充分利用文本信息与知识图谱中的知识,可以直接应用于非结构化文本,并进行三元组事实抽取。
  4.为了模拟非结构化关联规则完善知识图谱的过程,本文搭建了一个基于非结构化关联规则的知识抽取原型系统完成仿真实验验证。
  5.最后,将非结构化关联规则应用到关系分类及三元组推理两个任务上,实验结果表明了NEARM算法的有效性。
其他文献
同型产乙酸菌是兼具自养和异养两种代谢方式的严格厌氧微生物,既能以H_2还原CO_2合成乙酸,也能发酵有机物产生乙酸等小分子有机物,是乙酸生物生产的优良菌种资源,在生物发酵气(富含CO_2/H_2)、工业合成气(CO/CO_2/H_2)和木质纤维素等资源化方面展现出了很好的发展前景和应用潜力。然而,目前获得的同型产乙酸菌纯培养物还十分有限,对其生理生态特征的了解也不够深入和全面,严重制约着其应用技术
结直肠癌(Colorectal cancer,CRC)发病率在恶性肿瘤中居全球第3位,同时也是我国常见恶性肿瘤之一。近年来随着环境日益恶化、不良的生活方式及人口老龄化等因素,其发病率和死亡率逐年趋增。目前结肠癌主要的治疗方案是手术与化疗相结合,但是在治疗过程中,肿瘤的耐药性和药物给机体自身带来的副作用严重阻碍了癌症的治疗。因此,寻找更安全、更有效的抗癌新药物成为肿瘤治疗亟待解决的问题。天然化合物是
学位
锁阳(Cynomorium songaricumRupr.),是一种生长在沙漠地区的寄生植物,主要用于治疗“肾阳不足、精血亏虚、腰膝痿软、阳痿滑精,肠燥便秘”等。然而,不同地区来源的锁阳品质差异较大、影响锁阳药效的化学成份积累的相关因素尚不清楚等严重制约着锁阳的使用。  本课题以UPLC-Q/TOF-MS/MS为手段,采用代谢组学的方法系统分析锁阳代谢组成,采用多变量统计分析来自我国腾格里沙漠和巴
学位
NCo R1即核受体辅抑制因子1,NCo R1在肿瘤发生、脂肪代谢及肌肉活动中都起重要调控作用,但在免疫系统中的调控作用知之甚少。早期Glass实验室利用CHIP、过表达以及Knockdown等技术阐明NCo R1在巨噬细胞的激活过程中起抑制作用,然而最近Li P等利用条件性基因敲除小鼠进行研究而发表在《Cell》杂志的实验结果并不能重复该早期研究发现,说明技术手段的不同可能会导致截然不同的研究结
网络时代时时刻刻都在产生大量的数据/信号,人们经常需要进行采样压缩以实现对这些信号的存储和传输。随之而来,从压缩后的信号恢复出原始信号则是一件极具挑战性的事,这在实际应用中也起着关键作用。因而对具有稀疏先验的信号,稀疏重建技术一直属于信号处理领域的研究热点之一。  传统的稀疏重建算法大多需要进行很多次迭代运算,对硬件的计算能力和存储能力要求较高,而采用基于常微分方程(ODE)的动态系统可以更加快速
在如今信息化技术高度发展的时代,数字图像是人们日常生活中最常接触到的信息载体,与人们的日常生活息息相关。然而图像在获取(成像)和传输过程中不可避免地会受到噪声的污染,影响图像的质量,进而影响后续的图像应用。因此图像去噪是图像处理最基础的问题之一,也是计算机视觉最底层的研究之一,有着重要的现实意义。  由于图像去噪是一个病态的逆问题,其解存在无穷多个,所以结合图像的先验信息,用于构造合适的正则项来约
学位
通信需求的“立体式”增长,激励着无线通信技术的迅猛发展。频率资源对通信系统容量和性能制约性影响,已经严重的影响了通信系统的发展。如何有效的提高频谱效率和能量效率是第五代移动通信系统发展和建设的关键问题。大规模多天线(Massive MIMO: Massive Multiple Input Multiple Output)技术是突破这一瓶颈的关键技术。  本论文主要研究了大规模多天线系统在典型传播场
学位
单目图像的三维人体姿态估计是计算机视觉领域中的热点问题,具有非常广泛的应用前景。由于从单目图像推理三维空间信息本身是一个病态问题,且姿态图像存在着遮挡和视点差异,使其非常具有挑战性。本文分两阶段进行单目图像的三维人体姿态估计,首先从单目图像中估计二维人体姿态,进而根据二维姿态估计结果推理出三维人体姿态。本文还将单目图像的三维人体姿态估计与基于内容的图像检索相结合,提出视点无关的人体姿态图像检索框架
IEEE802.11无线局域网(Wireless Local Area Network,WLAN)技术在过去二十年中取得了巨大的进展,由于其具有低成本、灵活性、可扩展性和易部署等优势,在家庭、企业和工业等诸多无线网络场景和应用中均展现出了强大的生命力。工业WLAN继承了WLAN的基本功能和特性,但由于工业环境的复杂性和WLAN协议的内在不足引起的网络不确定性,使得传统WLAN难以直接应用于工业通信
铽(Ⅲ)掺杂的铝酸锌纳米晶是用化学共沉淀法合成后煅烧处理。通过XRD衍射数据估算出合成的材料的平均晶粒尺寸约为6.45±2.0nm,这与通过HR-TEM得到的晶粒尺寸相一致。X射线粉末衍射谱证实在晶体的主相点阵中铝离子被铽粒子所替代。本文研究了铽浓度和样品的颗粒尺寸对材料的发光性能的影响。光致发光图谱显示了一个绿色的发射光谱带,激发光波长为230nm。在一些陶瓷产品的工艺测试中证实这种涂料和它的发