论文部分内容阅读
构建专业领域的论文知识图谱,能够为该领域的科研人员提供强大的知识服务。单位名称是文献知识图谱中重要的知识,对单位名称的知识抽取是构建文献知识图谱的重要环节。由于抽取出的单位实体往往存在多种表述方式,因此需要对这些单位名称进行消歧。由于抽取出的单位实体为无标签数据,因此在单位名称消歧的过程中,主要采用文本聚类的方式。在文本聚类的过程中,文本间相似度计算方式和聚类算法将会影响单位名称消歧的结果。因此本文重点研究了文本相似度计算方式和聚类算法,主要创新点如下:1)针对短文本词量少、噪声大的问题,提出了基于词频密度分布的加权算法(Density-Distribution-Based Term Frequency-DDBTF)。该算法研究词频和词频种类数之间的分布特征,首先基于词频密度分布进行了非齐次压缩,然后使用复合高斯函数来拟合压缩后的特征分布,最后得到词项的加权函数。实验表明在短文本数据集上,DDBTF算法比未加权算法在文本相似度任务上,皮尔逊相关系数上平均提高了24.1%,相比TF-IDF算法平均提高了4.9%,比SIF算法平均提高了1%。2)针对密度聚类时间开销大的问题,提出基于GPU加速的密度聚类的算法。通过设计实体词向量,抽取出距离计算的并行块,在GPU上运行当前点与数据集中所有点的距离矩阵,最后根据得到的距离矩阵生成当前点的聚类簇。实验表明,当数据集的大小为100000时,与原密度聚类算法相比,加速比为6.40。3)针对密度聚类容易将相邻的簇合并的问题,提出基于地域特征和密度的二次划分算法。该算法将单位名称蕴含的地域信息作为特征对第一次聚类结果进行划分,并设计了基于密度划分的距离函数,放大单位实体描述间的不同表述对实体表述的影响,解决由于密度距离泛化导致的同一簇内存在多个不同实体的问题。实验表明,相对于第一次聚类算法,该算法的准确率提升了20.81%基于上述研究,本文构建了一个单位名称消歧系统,实现了对文献单位名称的预处理、实体词识别、特征加权、聚类和规范化表示等处理过程。该单位名称消歧系统被成功地应用于医学文献知识图谱构建。实验表明,经过该系统处理后,276882种单位名称表述减少为182547个,消除了34.07%种实体描述。