基于主题模型的科研异构网络排序方法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:yjnter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网飞速发展产生的海量数据,用户通过检索得到的结果,不满足单纯的检索词匹配和信息单一的展示,而是希望向更为复杂的形式转换,得到更为满意的结果。这样就使各种信息数据以潜在关系的形式联系起来形成复杂的社交网络。社交网络数据越来越复杂,单纯的剥离其他信息关注同种类型的网络对象关系,可以很好地简化处理思路,但是造成了信息的损失。所以本文关注的异构信息网络可以使不同类型对象关联关系体现出来。本文着眼于异构科研网络环境,希望获取论文、作者、期刊和相关词汇在某搜索词下的排序结果,主要面对以下几个问题:(1)初始以论文题目、发布的期刊或会议、作者及摘要作为对象构建异构科研网络,但是论文题目与摘要存在一对一关系,不能简单明确的构建此网络。(2)如何利用异构网络中对象的依赖关系,挖掘异构网络对象的共同隐含话题。(3)如何利用网络中对象的隐含语义话题,对象与对象之间的关系,识别异构网络中对象的权威度,从而做结果排序。本文主要算法研究内容如下,并将此功能在系统中实现出来。(l)先利用主题模型,由摘要计算出排名靠前的主题关键字作为异构网络节点,以论文题目、发布的期刊或会议、作者及关键字作为四种类型对象构建异构科研网络。在此过程中将百度开源SentenceLDA与传统主题模型LDA作比较,发现SentenceLDA更适用于计算句子类型的主题分布概率,而LDA适宜计算单词类型的,故而在以摘要提取关键字时使用SentenceLDA算法。(2)引用Gibbs sampling以TCKA方法对异构网络对象统一主题建模,模型利用异构对象之间的内在依赖关系,分析其共同的隐含话题。如果单独使用同类型节点的主题模型计算方法,不能很好的利用不同对象之间的关系,可能对结果产生有一定偏差。(3)利用可以在异构网络中排序的ConNetClus算法,再将TCKA模型和网络对象权威排序ConNetClus算法相结合,并将其应用于异构对象的检索中。实验结果表明基于主题模型的异构科研网络排序方法明显好于基于检索词匹配以及单一的同构网络排序方法。上述方法利用ES检索型数据库与SSM框架实现该系统,将检索结果以权威论文、发表的会议或期刊、专家及关键字在页面体现出来。分析节点的主题相关性及权威度对于网络分析和挖掘具有重要的意义,可以有效地优化传统的排序算法。
其他文献
随着我国各个城市地铁线路的不断修建,盾构隧道不可避免的穿越房屋、桥梁的桩基础,给盾构施工增加了新的挑战。本文以郑州某地铁侧穿拟建桥梁桩基为工程背景,对比分析了盾构
在现代社会中信息科学技术越来越重要,大数据处理、技术更新换代、商业模式的进化需求越来越旺盛,因而对大规模数据进行有效处理,并从大规模的数据中挖掘出有价值的信息已然成为当今时代众多企业以及学者关注的重要话题。在以大数据信息技术为主导的社会背景下,对经典聚类算法进行改进和扩展并使其为大数据进行服务是及其重要的,因而本文就是在此背景下的聚类算法的改进。模糊C均值算法(FCM)是目前众多模糊聚类算法中应用
室内人员信息对建筑能耗有重要影响,掌握室内人员的状态、行为等可以为建筑能耗模拟研究、暖通空调系统的运行提供指导和帮助。然而,室内人员数量的多变性及其行为的不确定性
目的:观察“烧山火”针刺法对阳虚寒凝证DPN的临床疗效。方法:按随机数字表法将所选60例患者分为对照组和治疗组,每组各30例。对照组为常规针刺组,治疗组为“烧山火”针刺组
随着无线传感技术的快速发展,无线传感器网络在农业、工业、军事、交通、通信等领域广泛应用,成为信息感知、采集、处理和传输的重要方式之一。节点定位技术是无线传感器网络
根瘤菌可以与豆科植物共生固氮,田菁根瘤菌ORS571可以在其宿主毛萼田著上结根瘤和茎瘤,其中茎瘤比根瘤有更高的固氮效率。在田菁根瘤菌中有一个87.6kb的共生岛,含有结瘤基因
鱼雷武器的发展及其应用促进了反鱼雷技术的日益革新,尤其是水下高速射弹的迅猛发展。含能反应材料在水下高速射弹技术中的应用,推动了新型含能弹用于打击鱼雷的实践研究。本
近年来,水声传感器网络(UASNs)已成为热门研究课题,能效问题作为UASNs的基础保障,得到了广泛关注。然而,由于水声传感器节点由电池供电,节点能量过早耗尽将会影响网络生命周
由于经济全球化和交通运输的快速发展,物种入侵成为对生物多样性可持续发展的最大威胁之一。根据新千年生态系统评估,外来物种的入侵所带来的危害将继续增加。大多数成功入侵
液晶透镜可以通过施加控制电压来改变焦距,其本质主要是液晶分子的极性基在电场的作用下会使液晶分子发生转动,转动后的液晶分子可以改变入射光在液晶材料中的传播方向,从而