基于并行聚类方法的单位名称消歧技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:kangxi2xjp30
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
构建专业领域的论文知识图谱,能够为该领域的科研人员提供强大的知识服务。单位名称是文献知识图谱中重要的知识,对单位名称的知识抽取是构建文献知识图谱的重要环节。由于抽取出的单位实体往往存在多种表述方式,因此需要对这些单位名称进行消歧。由于抽取出的单位实体为无标签数据,因此在单位名称消歧的过程中,主要采用文本聚类的方式。在文本聚类的过程中,文本间相似度计算方式和聚类算法将会影响单位名称消歧的结果。因此本文重点研究了文本相似度计算方式和聚类算法,主要创新点如下:1)针对短文本词量少、噪声大的问题,提出了基于词频密度分布的加权算法(Density-Distribution-Based Term Frequency-DDBTF)。该算法研究词频和词频种类数之间的分布特征,首先基于词频密度分布进行了非齐次压缩,然后使用复合高斯函数来拟合压缩后的特征分布,最后得到词项的加权函数。实验表明在短文本数据集上,DDBTF算法比未加权算法在文本相似度任务上,皮尔逊相关系数上平均提高了24.1%,相比TF-IDF算法平均提高了4.9%,比SIF算法平均提高了1%。2)针对密度聚类时间开销大的问题,提出基于GPU加速的密度聚类的算法。通过设计实体词向量,抽取出距离计算的并行块,在GPU上运行当前点与数据集中所有点的距离矩阵,最后根据得到的距离矩阵生成当前点的聚类簇。实验表明,当数据集的大小为100000时,与原密度聚类算法相比,加速比为6.40。3)针对密度聚类容易将相邻的簇合并的问题,提出基于地域特征和密度的二次划分算法。该算法将单位名称蕴含的地域信息作为特征对第一次聚类结果进行划分,并设计了基于密度划分的距离函数,放大单位实体描述间的不同表述对实体表述的影响,解决由于密度距离泛化导致的同一簇内存在多个不同实体的问题。实验表明,相对于第一次聚类算法,该算法的准确率提升了20.81%基于上述研究,本文构建了一个单位名称消歧系统,实现了对文献单位名称的预处理、实体词识别、特征加权、聚类和规范化表示等处理过程。该单位名称消歧系统被成功地应用于医学文献知识图谱构建。实验表明,经过该系统处理后,276882种单位名称表述减少为182547个,消除了34.07%种实体描述。
其他文献
最高人民检察院于2021年5月发布了5件工伤认定和工伤保险类行政检察监督典型案例,要求各级检察机关切实加强劳动者权益保护,维护法治化营商环境。为促进对典型案例的理解与适用,现就该批典型案例解读如下。一、发布典型案例的背景和意义(一)发布的背景党的十八大以来,以习近平同志为核心的党中央高度重视劳动者权益保障,采取深化收入分配制度改革、提高劳动报酬在初次分配中的比重,健全劳动关系协调机制、构建和
期刊
中医药是中国传统文化的精髓,做好中药管理是保证药物安全、提高中医药服务、优化临床用药效果的重要环节。近年来,中药采购环境混乱,中药材质量鱼龙混杂,严把中药采购关是药房管理的必要任务。文章针对中药采购验收人员的要求、中药采购流程、中药采购渠道的规范、中药采购的评审和中药的质量监管等几个方面对医疗机构的中药采购管理提出看法与建议,为医疗机构提高采购人员素质、优化中药采购管理制度体系、完善中药采购程序和
学位
学位
学位
学位
学位
以寒冷地区某高校学生公寓为研究对象,采用问卷调查和实地测试相结合的方法研究人体舒适温度,指导供暖系统调控,在满足学生公寓不同用热时段热舒适的同时降低供暖系统能耗。通过问卷调查得出供暖宿舍学生期望温度为20~22℃。实地测试得到在80%人员满意度下,男生和女生可接受的室内温度范围分别为19.4~26.4℃、19.5~26.2℃,宿舍学生会依据实际室内温度适当增减衣物,舒适温度分别为21.60℃、21
学位
学位