论文部分内容阅读
近年来,科研论文的数量正以几何级的速度快速增长,随着网络信息技术的飞速发展,互联网上的科研论文形成了庞大而复杂的学术网络。如何能够迅速、有效地在如此巨大的学术网络中挖掘出需要的信息,使科研人员能够更加便利地利用网络学术资源,是目前亟需解决的重要课题。医学论文作为学术研究的一部分,同样也存在于复杂的学术网络之中。本文拟采用虚拟社区的相关理论和技术,来研究医学论文学术网络。通过对海量医学论文的分析,建立由大量研究者所形成的复杂学术网络,发现其中的虚拟社团,进而使医学工作者能够快捷准确地查找出与其研究领域、研究方向、兴趣爱好相同的其他医学研究人员;能查找到在相关领域影响较大的专家学者;能更有效、有针对性的查找医学论文。首先,本文以医学论文搜索网站PubMed为数据源,根据PubMed网站论文信息页面的数据结构,确定获取论文作者、Mesh主题词等数据项作为特征数据,利用网页爬虫技术在开源框架的基础上设计网页数据抓取程序,抓取数据,建立特征矩阵。其次,将抓取到的作者、Mesh主题词数据分别进行了处理。按照作者的附加信息对重名作者进行去重处理,并将发表论文数量较少,即使用Mesh主题词总数较小的低产作者去掉,减小样本空间。根据某主题词总使用频次、主题词使用频次的分散程度、以及主题词使用频次数据的相关性对特征矩阵进行了降维处理。然后,在对多种聚类分析方法和相似度计算方法进行分析比较之后,采用广义杰卡德相似系数对作者-Mesh特征矩阵进行计算,得到作者-作者相似度矩阵。在Hadoop并行计算平台上实现了谱聚类算法,对作者进行了聚类,实现了在医学论文中作者之间存在的虚拟社团的发现。最后,利用Java EE架构并结合Spring,Struts,iBatis框架进行软件开发,将社团信息保存到数据库中,通过查询系统进行社团信息索引,实现虚拟社团查询,并使用D3函数库进行大数据展示。研究表明,本文在网络爬虫开源框架Scrapy的基础上设计用于PubMed网站数据抓取的程序,能够方便、快捷地实现对数据源海量数据的抓取;通过对数据源网站和论文信息的分析,确定以Mesh数据作为关键特征,能够高效地建立作者之间的关系,进而提高发现医学论文中虚拟社团的效率;通过对医学论文中虚拟社团的挖掘,能够实现对作者进行更智能、更有效的分类。