基于GSDPMM算法的作者姓名消歧问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:king1981001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、通讯技术的发展,人类社会迈入了信息时代。信息和知识在形式、规模、获取方式、存储方式和传送方式等方面都发生了翻天覆地的变化。随着网络时代信息爆炸现象的日益明显,一些问题也越来越明显。电子出版物的作者姓名歧义问题就是其中一个比较突出的问题。在许多领域中,同名消歧一直被视为一个很有意义但是非常具有挑战性的问题,如在文献管理,社交网络分析等应用场景。论文的同名作者消歧是指利用论文的标题、作者、作者机构、摘要、关键词等信息,通过一些方法将论文分配到正确的作者实体簇中。目前己经有很多研究者针对同名作者消歧问题提出了解决方法,这些方法根据与机器学习的关系大体可以分为有监督、无监督、半监督、基于图算法、基于启发算法的。本文提出了一种高效的无监督作者名消歧方法,同时它具有一些启发式的特征。这种方法主要使用了基于GSDPMM算法的文本聚类算法来对这一问题进行解决。在详细分析了 GSDPMM算法的基础上,针对作者姓名消歧中的同源多文档的特点对GSDPMM算法进行了一些修改使之更适应当前的应用。通过实验结果表明算法在不是很整洁的数据集中依然取得了不错的效果。同时算法的时间复杂度随着文档数量的增长基本上呈线性增长。也就是说算法可以很好的应用于大数据量的场景。本文同时对算法中的多个参数的设置及意义进行了讨论。
其他文献
化石燃料过度开发引起的温室效应和能源短缺问题限制着人类社会的发展,CO2的捕获和封存技术是短时间内解决温室效应最为有效的方法,而寻找可再生的清洁能源代替不可再生化石
随着我国公共图书馆规模的持续扩展与业务量的逐步增多,图书馆需要更多的员工来维持其正常运行,但是有限的事业单位编制岗并不足以保证图书馆的正常有序运行,所以在实际过程
随着我国汽车保有量不断飙升,停车难已成为当今城市发展中的一大痛点。为缓解停车缺口,大量停车场建造工程相继展开。这些模式化的、单一目的性的停车场非但没有从根上解决停
三峡水库自2003年开始蓄水以来,由于库水位的波动的影响,涉水岸坡土体内部的细颗粒会随着渗流作用而被侵蚀、迁移,同时岸坡土体的孔隙率、渗透系数等物理参数会发生相应变化,
社交媒体上的网络欺凌通常影响恶劣,有效检测网络欺凌有重要的社会和学术意义。由于网络文本为用户生成内容,包含拼写错误、语法错误等噪声,学习欺凌特征的难度很大,检测网络欺凌一直是未能得到很好解决的难题。本文以提高网络欺凌检测准确度为目标,使用神经网络模型,学习字符组合特征和语义特征,并引入捷径策略(Shortcuts)融合上述特征,有效降低了用户生成内容中噪声的干扰,提高了模型学习欺凌特征的能力。本文
随着无线传感网络技术,微机电系统以及便携式电子设备等微功耗产品的应用越发广泛,传统的供能方式无法满足可持续的用电需求,因此探究如何为低能耗产品持续供能是亟待解决的
模糊集理论的创立,为不确定现象的研究提供了切实可行的方法.许多学者将模糊集理论应用于群和环,进一步延伸了模糊集理论的应用范围,并创建了模糊代数的新领域.迄今,模糊代数
中空夹层钢管混凝土是一种采用空心钢管替代实心钢管混凝土中部核心混凝土而成的新型组合构件;相较于传统钢管混凝土,该构件具有自重更轻、抗弯刚度更大、耐火性能更好的特点
明清时期,西医理论随传教士进入中国,清代末期,西学的兴起更促进了西医的推广,这些都为中医理论的变革,以及医学的综合发展带来了新的机遇和挑战。在这样的环境中,一批有远见
为解决中国正面临的能源缺乏与环境污染问题,实现社会可持续发展,中国需要寻找可持续能源来满足人类生产生活需求。燃料电池因其高效、安全、清洁的优势,成为可持续能源发展