学者精准画像的自动构建研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:xiwang452
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅猛发展,科研用户数量和学术成果不断增加,学术论文、期刊等学术数据呈高速增长趋势,标志着学术大数据时代的到来。学术信息过载使得查询学者相关学术信息变得繁琐,因此需要从繁杂的学术信息中挖掘出一个结构化的精简的学者全貌,即构建学者精准画像。本文主要目的在于利用学术数据构建精准的学者画像。学者精准画像包括多维度属性,主要包括学者的个人描述信息、学者的研究兴趣和学者的学术影响力三个方面。在此基础上,本文利用学者精准画像进行了学者推荐应用的研究。在学者精准画像中,学者的个人描述信息是其中的第一个维度。本文首先从多源异构的网页中,识别出学者主页、并利用信息抽取技术抽取学者的个人描述信息。本文利用学者姓名、学者所属机构信息,获取Google搜索返回页面;然后基于规则的方法进行网页排除过滤,得到学者主页;接着,本文使用触发词、正则表达式等方式制定不同个人描述信息的抽取规则,并进行信息的抽取。最终抽取的学者个人描述信息包括学者性别、个人照片、邮箱、职位、国籍等。学者的研究兴趣是学者精准画像的第二个维度。本文利用学术论文信息,进行学者研究兴趣标签的发现研究。采用两种不同的文本表示方法,即LDA与Doc2Vec,对学者和兴趣标签分别进行表示,然后依据学者和兴趣标签之间的余弦相似度,将相似度最高的5个标签作为学者的兴趣标签,接着依据加权投票法融合以上两种方法得到的标签结果,作为学者最终的研究兴趣标签。学者的学术影响力是学者精准画像的第三个维度。本文采用机器学习方法,对学者被引次数进行预测。首先,将统计类特征、文本内容特征以及网络特征作为学术论文特征;然后,采用自动分类方法,判断学者论文总被引次数是否为“0”;本文进一步采用回归方法进行非“0”被引次数的预测。本文实验结果表明:利用机器学习的方法预测学者被引次数,可以取得较好的效果。最后,本文综合以上三个维度的信息,生成学者的精准画像;基于学者画像信息,开发了学者推荐系统。系统除了学者推荐功能外,还提供学者精准画像可视化,学者库查询、论文查询等数据服务功能。本文研究提供包含个人信息、研究兴趣、学术影响力的学者概貌,体现科学研究动态和科研人才发展状况,有利于学术界开展科研工作,也对科研人才的使用提供帮助。
其他文献
新课程改革下地理学科建设提出了“以学生发展为中心”的核心理念,强调学生在教育过程中的主体地位,而地理教材图像系统作为地理教学过程中充分渗透和培养学生地理综合思维的实体材料,其编写应当围绕学生的学科能力发展为核心。但当前关于地理教材图像系统的研究,存在中学生的主体地位不强、研究方法偏向于对图像系统的定性描述而非定量分析的问题。本研究在对湘教版地理必修二的图像系统进行综合评价并得出评价结果的基础上,提
目的:观察微创钢板接骨术(MIPO)治疗胫骨远端骨折的效果。方法:选取62例胫骨远端骨折患者作为研究对象,按照随机数字表法分为观察组32例、对照组30例。观察组实施MIPO治疗,对
漳州市博物馆依托"漳台族谱对接成果展",开展了卓有成效的涉台文化宣传。从中可以看出,博物馆在涉台文化宣传中具有文物资源优势、文化窗口优势和文化软传输优势,在涉台文化
为了保障移动Ad Hoc网络的服务质量(Quality of Service,QoS)需求,选择合适的QoS路由算法是需要研究的重要问题之一。但研究表明,多约束条件下的QoS组播路由问题属于多项式复
在现代医学技术突飞猛进和医疗保障体制改革的今天.人们对医院临床检验的质量越来越予以高度的重视.临床检验结果是医院的生存与发展的根本,其结果正确与否直接影响了对患者病情
泉州南外宗正司作为南宋外居宗室的管理机构,其所管理的皇族宗室群体,对泉州地方社会产生不容忽视的影响。本文通过史志文献的记载,梳理宗人入泉路线及时间,考订南外宗正司移
阿尔茨海默病(Alzheimer’s Disease,AD)和癫痫(epilepsy)都是神经内科常见的慢性疾病,其发病机制复杂,不仅严重侵害患者的身心健康,也给家庭和社会带来了沉重负担。两者在病
近年来随着信用债市场大量扩容,自2015年开始,公司债市场发行了大量“3+2”以及“2+1”期限结构的品种。而当前宏观经济环境不断强调“去杠杠、严监管”,这使得前期大量依赖信用债融资的企业陆续开始出现流动性问题。其中,民营企业上市公司出现大量的企业债违约,究其原因,大多是由于企业“过度投资”、“过度杠杆经营”所导致。一直以来,关联交易就是导致我国民营企业上市公司出现困境的一大重要因素。企业进行关联
网络流量测量是网络管理中的一个重要组成部分,在网络安全攻防领域具有重要的作用,诸如网络拥塞、DDOS攻击、蠕虫病毒等网络事件均可通过对网络流量的有效检测进识别。但随着网络数据的爆发式增长,以及网络传输速率的巨大提升,传统的网络流量检测方式面临着许多问题,在有限的存储空间下进行准确的流量统计成为一项挑战。而就数据中心这类特殊的网络来看,其除了会产生规模非常大的海量网络流量数据外,数据中心网络的流量分
2020年8月30日,由中国国家博物馆与中共福建省委宣传部共同主办,福建省文化和旅游厅、福建省文物局承办,福建博物院协办的“格物匠心——福建传统工艺展”在中国国家博物馆隆