百科知识库实体对齐算法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:liuling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人类在生活中接触和产生的数据量在飞速增长,且由于自媒体时代的到来和用户的多样性,网络中的数据呈现出多样化。在线网络百科作为一个知识共享和知识普及的平台,涵盖了各种类型的知识数据,具有数据规模大、表达方式多样的特点。网络百科的组成单元是百科实体,相同的实体可能有不同的称谓方式,不同实体的名称也可能相同,这样的现象为百科知识库中的知识数据进行整合和复用造成了很大的阻碍。并且,国内众多大型百科网站由网民协作编辑形成,表达缺乏规范性,部分知识数据是重复甚至是错误的。若不进行实体对齐,直接进行知识融合,知识库中将出现重叠甚至自相矛盾的实体,知识数据的数据质量会严重下降。为了完成在线百科知识库的实体对齐任务,进行知识融合,达到扩充知识库的目的,本文围绕百科知识库实体对齐算法进行了研究,主要包括以下几个方面:1.针对百度百科和维基百科中文版的实体差异较大的特点,提出基于主题模型的百科知识库实体对齐算法。将主题模型应用到实体对齐的任务中,利用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型对百科实体的非结构化描述文本进行深度语义挖掘,在生成实体的特征向量时结合了文本的深层语义,用来完成实体对齐任务。2.根据中文理解词语要结合上下文的特点,提出改进的置信传播(Belief Propagation)算法。在估计LDA模型的隐藏参数时,考虑到词语的上下文语义,为同一篇文本中的相同词语赋予不同含义,使其更贴合真实语境。3.针对百度百科和互动百科中实体非结构化描述文本相似度高的问题,提出基于三联体长短词记忆网络(Long Short-Term Memory,LSTM)的百科知识库实体对齐算法。利用LDA模型生成词向量,并采用三联体LSTM捕获全文的语义特征,自动地生成更加精确的特征向量来提高实体对齐效果。使用百度百科、维基百科中文版和互动百科的实体数据,进行了多项对比实验,实验结果良好,体现了算法的有效性。
其他文献
目的探讨影响重型溶血尿毒综合征(HUS)的预后因素,并评价治疗方法。方法分析10例重型HUS患儿临床资料,采用血浆置换加连续血液净化等综合治疗措施。结果本组病例急性期均存活
目的分析成人噬血细胞综合征(HPS)的临床特征,对比HLH-2004诊断标准,以提高对本病的认识,早期诊断,减少误诊,提高存活率。方法回顾分析近5年收治的23例因肝功能异常入院最终
目的探讨老年患者非心脏手术安装心脏临时起搏器的指征。方法327例行外科手术前行临时起搏器植入的老年患者,根据术中和术后心电图监测记录,将患者分为起搏组和备用起搏组,对
"十二五"时期以及以后更长一段时间,南宁市经济社会要加快转型升级发展、实现经济社会发展目标仍然离不开工业发展带动。但在现有条件下,南宁市如何加快新型工业化与新型城镇
款式造型、服装色彩、服装材料构成了服装的三要素。设计师除了对服装的造型和色彩的设计之外,如今在对于服装面料的二次设计与改造上已逐渐成为服装设计师在设计服装时的一
李长春对红色旅游的指示 2004年11月9日至12日,中共中央政治局常委李长春先后到石家庄、保定、邯郸等地,考察了爱国主义教育基地。在革命圣地西柏坡,李长春瞻仰了党的七届二
慢性稳定性冠心病有着一定的隐匿性,运动心电图、超声心电图等检查方法效果显着,但仍过度依赖冠状动脉造影,抗血小板、抗缺血、调脂药物治疗效果显着。
大量的中考零分作文是中学生写作能力低下的表现。文章从教材、教师、学生、考试四方面分析了中学生中考英语零分作文的成因,并从加强写作指导,整合阅读教学,改进评价方式等方面
目的探讨小剂量右旋美托咪啶对老年高血压患者围麻醉期间血压的影响。方法将65~70岁、ASAⅡ~Ⅲ级接受前列腺汽化切除的高血压患者75例,随机分为对照组、咪唑安定组和右旋美托
应用题是小学数学的重要内容之一,也是教学的难点之一。文章通过分析小学生的思维特征及思维发展要求和分析小学数学新旧数学课程标准的应用题定位不同及应用题本身的特征的