基于统计主题模型的学术网络对象建模与应用

被引量 : 0次 | 上传用户:chenwu2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来学术网络信息的快速增长,对学术网络的管理与应用也变得尤为重要。学术网络是由论文、会议、作者等多种不同类型的对象构成。这些异构对象之间互相依赖,存在着紧密的语义关联。论文的内容从一定程度上反映了它的语义主题;作者会根据自身的研究兴趣来撰写论文,并投到相应主题领域的会议;会议也具有其主要的研究方向,这与其收录的论文与作者的研究兴趣相呼应。有效地挖掘学术网络中的语义信息,对于学术网络的充分利用具有非常重要的意义。对学术网络对象进行建模则是其中关键的一步。学术网络的对象建模方法主要包括语言模型LM和几种常用的统计主题模型,如LDA、Author-Topic(AT) Model和Author-Conference-Topic(ACT) Model。LM、 LDA和AT都只能实现对单个对象的建模,忽略了学术网络中对象之间的语义关联。ACT通过将网络对象映射到同一个主题空间,能够实现为异构网络中对象的统一语义建模。但很多时候词语主题与会议主题并不等价,相对词语表征的细粒度主题而言,会议所表征的语义主题属于粗粒度级别。因此,对于学术网络对象的统一建模与语义挖掘效果仍有待提高。本文便基于统计主题模型的思想,对异构学术网络对象的统一语义建模问题展开进一步研究,具体包括以下三个方面的工作:第一、提出一种新的统计主题模型Author-Conference Topic-Connection(ACTC)。通过挖掘学术网络中会议、作者和论文各个对象中隐含的语义信息,将这些异构对象分别映射到相应的语义主题层,从而实现对学术网络对象的统一语义建模。实验表明,ACTC模型对于学术网络对象具有较好的语义表征效果。第二、将ACTC模型应用于学术检索,包括专家检索、会议检索、论文检索。ACTC模型能够更有效地挖掘学术网络对象之间的语义关联信息,利用挖掘到的潜在语义主题为桥梁,可实现根据查询词得到语义相关的专家、会议和论文。在实验中,将ACTC与几种常用的统计主题模型和统计语言模型进行了学术检索效果的对比,包括统计语言模型LM、LDA、 AT以及ACT,并分析了基线方法的不足。第三、利用ACTC模型构建计算语言学领域的学术网络检索系统ACLMiner。该系统通过为计算语言学领域中的学术对象进行统一语义建模,并挖掘所有论文、专家和会议的语义信息,从而为用户提供权威论文、专家和会议的语义检索服务。
其他文献
目的探讨突发性聋患者前庭功能与预后的关系。方法对154例突聋患者(57例伴眩晕)治疗前和治疗后进行纯音听阈测试,其中86例(32例伴眩晕)进行了冷热水检查、前庭诱发肌源性电位
<正>河蟹养殖业经过30多年的发展,现已成为我国水产养殖的支柱产业之一。但是在河蟹养殖过程中容易有疾病的发生,对河蟹的产量有非常大的影响,河蟹的常见疾病可分为病毒性疾
唐宋诗词和广告的关系十分密切。唐宋诗歌中有一些作品反映了我国古代广告的情况,可见古代的广告形式和特点。有一些作品则直接以店名或商品名入诗,类似于现代的隐性广告,无形中
作为互联网与电信网融合的重要产物,VoIP业务近年来在全球得到了快速而持续的发展。我国目前虽未正式开放VoIP业务运营,但由于VoIP具有技术门槛低和业务利润高的特性,网络中存在
在大学生中开展创业教育是我国高等教育和社会经济发展的迫切需要。目前我国各高校都在积极开展创业教育,培养大学生的创新创业能力。在国内高校大学生创业教育和创业指导实
医院外来手术器械是指器械商租借或免费提供给医院手术室临时使用的可重复使用的手术器械。植入物是放置于外科操作造成的或者生理存在于体腔中留存时间为30d或者以上的可植
网络应用的广泛程度随着当前我国网络社会的形成和进步,几乎囊括了整个社会体系。大学生作为网络社会中的主力军,在此影响之下,其道德行为和思想都发生着重大转变。网络固然有其
工程变更几乎在所有的工程中都存在,且变更对工程造价的影响很大,加强工程变更的造价管理对控制工程投资,提高投资效益有重要意义。
本文从中西媒介生态研究比较入手,分析我国媒介生态的三个层次:媒介宏观生态、中观生态和微观生态,并探讨我国媒介生态变迁的三个阶段:政治化生态阶段、市场化生态阶段和数字
本研究选取竞争价值观框架,运用多项式回归与效应面分析方法探讨个人—组织价值观契合对员工情感承诺和任务绩效的影响。基于468个配对样本数据分析,发现对团队、活力和市场