医学论文中虚拟社团发现方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chenjzh68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,科研论文的数量正以几何级的速度快速增长,随着网络信息技术的飞速发展,互联网上的科研论文形成了庞大而复杂的学术网络。如何能够迅速、有效地在如此巨大的学术网络中挖掘出需要的信息,使科研人员能够更加便利地利用网络学术资源,是目前亟需解决的重要课题。医学论文作为学术研究的一部分,同样也存在于复杂的学术网络之中。本文拟采用虚拟社区的相关理论和技术,来研究医学论文学术网络。通过对海量医学论文的分析,建立由大量研究者所形成的复杂学术网络,发现其中的虚拟社团,进而使医学工作者能够快捷准确地查找出与其研究领域、研究方向、兴趣爱好相同的其他医学研究人员;能查找到在相关领域影响较大的专家学者;能更有效、有针对性的查找医学论文。首先,本文以医学论文搜索网站PubMed为数据源,根据PubMed网站论文信息页面的数据结构,确定获取论文作者、Mesh主题词等数据项作为特征数据,利用网页爬虫技术在开源框架的基础上设计网页数据抓取程序,抓取数据,建立特征矩阵。其次,将抓取到的作者、Mesh主题词数据分别进行了处理。按照作者的附加信息对重名作者进行去重处理,并将发表论文数量较少,即使用Mesh主题词总数较小的低产作者去掉,减小样本空间。根据某主题词总使用频次、主题词使用频次的分散程度、以及主题词使用频次数据的相关性对特征矩阵进行了降维处理。然后,在对多种聚类分析方法和相似度计算方法进行分析比较之后,采用广义杰卡德相似系数对作者-Mesh特征矩阵进行计算,得到作者-作者相似度矩阵。在Hadoop并行计算平台上实现了谱聚类算法,对作者进行了聚类,实现了在医学论文中作者之间存在的虚拟社团的发现。最后,利用Java EE架构并结合Spring,Struts,iBatis框架进行软件开发,将社团信息保存到数据库中,通过查询系统进行社团信息索引,实现虚拟社团查询,并使用D3函数库进行大数据展示。研究表明,本文在网络爬虫开源框架Scrapy的基础上设计用于PubMed网站数据抓取的程序,能够方便、快捷地实现对数据源海量数据的抓取;通过对数据源网站和论文信息的分析,确定以Mesh数据作为关键特征,能够高效地建立作者之间的关系,进而提高发现医学论文中虚拟社团的效率;通过对医学论文中虚拟社团的挖掘,能够实现对作者进行更智能、更有效的分类。
其他文献
随着密集波分复用技术的广泛应用和光纤传输容量的巨幅增长,现有电交换技术无论在交换容量还是能效上都早已不堪重负,构建以波长交换为基础的下一代智能化全光通信网络逐渐成
无线通信技术的快速发展和大量部署的WiFi网络使得基于WiFi的室内位置服务受到越来越广泛的关注。早期的WiFi室内定位系统主要基于接收信号的信号强度(RSS)。由于在复杂环境
随着中国城市化稳定发展和城市交通运输能力的逐步提高,综合交通枢纽作为城乡发展的重要节点,其规划建设越来越受到重视。但是,在综合交通枢纽建设实施过程中,随着外部需求和
高效视频编码(HEVC)是新一代视频编码标准,与上一代标准H.264/AVC相比,同等条件下HEVC编码效率提高一倍左右,但计算复杂度的急剧上升给应用和推广带来极大的困难。本文在深入
随着经济全球化和中国加入WTO的深入,国际化发展已经成为企业进行业务扩展的重要选择。江苏润和在上个世纪90年代开始了国际化业务的扩展,目前在日本(东京/名古屋)、美国(旧
目的观察连花清瘟颗粒辅助治疗社区获得性肺炎的临床疗效。方法 68例社区获得性肺炎的患者随机分为治疗组38例和对照组30例,治疗组予对症治疗及抗生素基础治疗,包括盐酸莫西
国家若干信息消费的刺激计划可望从整体上拉高全国对宽带网络、智能终端和信息应用的消费水平。在国家宏观环境和地方政策等因素的综合影响下,随着国内支柱产业信息化发展的
由于工业过程的复杂性,许多重要的过程变量受限于当前的技术或者经济条件难以实现实时在线测量。为解决此类问题,软测量技术逐渐发展了起来。其基本思想为根据与待测变量相关
在互联网时代下,人们越来越关注建筑物室内的数据接入与分享。在通信方面,传统的室内信号传输系统往往布局链路复杂、架设成本高,这种宽带接入方式已经不能满足人们的现代需
随着科学技术的迅猛发展,数字媒体的存储、处理和传播技术得到了很大的突破,利用数字多媒体获取信息逐渐成为日常生活中的不可替代的方式。如何确保信息在网络环境中安全传递