论文部分内容阅读
由于网上有海量的学术论文,所以要找到与研究课题相关的文章是一个艰巨的任务。人们做研究需要搜索、阅读和分析很多论文,电子书以及其他文件,然后确定它们的主要研究内容并从中挖掘知识。海量的可用资源都以非结构化的长文本页面格式提供,这需要很长的时间来处理、搜索、阅读和分析。考虑到大量的研究以及网上越来越多的信息,很难既快速又准确地找到所需的信息。作为这类问题的解决方案,将大量的信息组织成有意义的属于某一个类别的集群/类就变得非常重要。许多在线科学论文库,比如期刊和会议,他们根据出版年份,卷数和刊号来排版已出版的研究论文,这样很难找到我们要找的相关论文。许多期刊和会议在谷歌学术搜索(许多研究人员最常用的搜索引擎)中没有索引或文摘,这可能会使得我们更难找到相关论文。使用谷歌学术搜索意味着要找到相关论文,读者或研究者必须知道期刊的链接,然后进入链接搜索他们的出版物,卷数和刊号,这要消耗一定的时间。有一些杂志要求作者在提交手稿时选择论文主题所属的类别,然后在论文发表时根据类别进行分类。在这些期刊当中,有些可能只提供一个主题选项,有些则提供了多个选项。对于那些只为作者提供一个主题选项的期刊,它意味着一篇论文只属于一个主题领域,然而这是不正确的,因为科学论文可以解决多个领域的问题,出现在论文中的关键字反映了论文所强调的主体内容。这种根据文章的主体内容来总结和组织论文排版的方法可以简化文章的搜索和检索过程。论文推荐系统也被提出来帮助研究人员搜索他们感兴趣的论文或与他们研究领域相关的论文。文本分析和文本挖掘技术已经成为研究人员的感兴趣的两大重要主题。文本挖掘是从文本中提取高质量的有用信息的过程。首先从文本文件中提取信息(事实和事件),然后采用传统的数据挖掘和数据分析方法进行处理。在本文中,我们试图解决这个问题并找到该问题的解决方案,然后使用下一代文本挖掘技术来组织那些学术研究论文,使他们能够被更易于搜索和检索。应用高效的文本挖掘技术,如文本摘要,信息提取,文本聚类以及文本分类方法等,它帮助我们提出新的基于文本挖掘的方法,然后应用到科学研究论文2,以从中发现有用的信息或知识,造福读者或研究人员。我们提出了一种基于文本挖掘技术的科学论文综合分析方法。通过我们的方法,科学论文通过信息提取的方式从非结构化格式转换为对应的结构化格式。关于根据主题组织论文的排版并简化搜索和检索过程的不同方法也被提出来了。图1显示了本文提出的文本挖掘方法的主要任务。 图1.通过文本挖掘技术进行的学术研究论文分析的结构示意图 除此之外,我们还运用文本挖掘的方法根据读者正在阅读的或者感兴趣的论文向他们推荐相关论文。 上述方法可以在论文搜索、阅读和分析过程中提供帮助。实际上论文推荐系统可以帮助研究人员记录他们的研究领域。本文针对前文提到的问题提出了四种解决方案,根据学术研究论文文本挖掘过程中信息提取、学术论文聚类、分类和推荐(相关论文根据读者正在阅读的文章被推荐)关键技术进行总结。 第一种解决方案是通过信息提取的方式对学术论文进行摘要提取,这使得论文可以被快速的访问和阅读。这种方法也包含了从非结构化文本格式向结构化的文本格式的转换,便于进一步处理。人们做研究必须要读很多文章,这样他们可以看到别人都做了什么,然后可以考虑他们是否可以对现有方法进行改进或提出新的方法。他们可以对自己感兴趣的领域进行一项调查,看在一段时间内有多少篇相关的论文被发表,或者某一位特定作者发表了多少论文。许多学术研究论文,特别是期刊论文的编写都采用文本页面,一般都要很多页,这需要很长的时间来进行处理、搜索、阅读和分析。因为读者要阅读导其研究领域相关的所有文章,所以这可能需要花费很长时间。 在第二种解决方案中,我们将无监督学习方法应用于类似的研究论文分组中,便于检索和访问。我们提出一种新的方法来研究论文的组织和检索,服从相近研究论文和交织在一起的研究主题。它是基于主题分析提取和聚类的科学分析方法,目的是组织研究论文。信息提取技术再次应用于从全文中提取其它感兴趣的信息,这种技术可以促进集群技术的应用,这也是这种技术第一次贡献的扩展。这是一种非结构化文档格式到结构化文档格式的转换,这种转换提取的信息可以用来挖掘和查询。研究背后的动机是,当读者在阅读学术论文时,他们会有不同的阅读兴趣。比如:致力于研究科学计量的研究人员(他们无需知道论文的内容,对于他们知道论文的主题就已足够)可能感兴趣于搜索哪些研究主题更活跃,哪一个是最近的研究主题,哪些过时一点,还有在一个特定的领域哪一个研究刚刚开始。这就为什么是在数据库中存储研究论文信息可以很容易获取需要信息的原因。一个新的研究者可能对哪一类研究主题更感兴趣,他可以从我们的方法获益,因为学术论文按照他们的主题分类被存储在数据库中。拥有聚类技术的信息提取技术被首次应用,用这种方法,研究论文就可以被安排和分组在主题和客户最接近的论文中。 第三种解决方案是对研究论文监督文本学习方法的应用,这种方式可以轻松地搜索和检索,是一种基于质心和搜索科学论文的分类。许多在线的科技论文资料库,如期刊和会议记录,根据年发布量来决定他们的论文发表,这使得很难找到相关的论文。在谷歌学术(对于许多研究人员最常用的搜索引擎)中收录这些科技论文资料,可以使得找到相关的论文更容易,而许多这些期刊和会议都没有在谷歌学术中收录,这意味着,要找到这些论文,读者或者研究人员不得不知道期刊的链接,然后可以通过出版、卷和数字来搜索它们。有些期刊要求在出版时写上作者,提交他们的出版内容是属于哪个主题的,这样可以用来论文分类。在这些刊物上,有的提供了一种选择的主题,有的提供了许多选择的主题。对于有些期刊只给作者提供一种选择的主题,也就是说该论文只能属于一类主题区域,这样是不对的,原因如下所述:在基于论文题目的句子、相关的标题、关键句子中提取的名词句子以及在剩余部分频繁出现的句子,我们可以发现一套主题。提取的主题当他们在论文中出现的时候,多是同时出现的,这种语义要着重对待。频繁多次共同出现的术语主题提取(FCTTE)方法被提出来查找论文的主要语义主题。它是基于短语的文件标题。我们提出了一种新的方法用来提取研究论文的语意主题: 1.加上论文的标题、关键字、参考文献的句子。 2.在提取的部分中,关键句子中的名词句子。 3.在剩余部分中,频繁相邻的词语。 基于在一定频繁次数中提取的质心分类,信息提取技术随后会被用在该分类上。该方法仅把频繁出现的多词组作为主题,这意味着它们更趋向于出现在原文中,从而语义得以保持。 提出的三种语意主题提取算法根据论文中的不同部分应用:第一种方法是基于论文标题的句子、关键字以及参考文献;第二种方法是基于在提取的关键部分中的名词句子;最后一种方法是基于论文的其余部分中找到的频繁相邻多字不包括从属关系,表格,图形,公式,符号和脚注,致谢,页脚,标题等。 提取的主题被用在基于每个分类中频繁提取主题的质心分类中。在许多现有的文本分类方法中,为了区分一个新的文档,相似性度量和概率(贝叶斯)被用来计算。基于所述语意内容,相似度函数和概论都没有计算在内,而不是: 1.从两个类质心的主题比较。 2.类质心主题从新的论文中搜索分类,以判断或预测新论文的分类。 3.换句话说,提取主题代表新的论文与质心分类中的论文进行比较,并且论文被分在他们最相似的分类中。如果至少两个提取主题是存在于类质心中,新的论文是类似于质心分类。接着,如果主题在论文中有分类,新的搜索会在新的论文中被检查。如果质心分类的主题在新的论文中有体现,这篇论文就被认为是另一个类。简单讲,每个质心分类在新的论文中被搜索以进行分类,如果它的质心主题在新的论文中至少被找到两次,这篇论文就被认为是属于其它类的。由于没有相似的矩阵与新的进行比较,这将导致快速的分类。这比线性搜索需要更多的执行时间。多限关键字命令(MTAKO)模型被认同和修改以满足我们的需求。没有必要使用相似函数,因为它是被其它方法使用的。 本文最后的解决方法或贡献是学术论文推荐。对于研究人员推荐系统是非常有用的应用。例如:它可以帮助研究人员保持他所研究领域的跟踪,根据他们的喜好推荐相关论文。对研究人员推荐论文,已经有很多方法被提出。个性化推荐是一种主动的服务技术,在服务器收集和分析用户信息,了解他们的行为和感兴趣点,建立一个模型,并提供满足个性化兴趣模型的服务。在过滤中,有两种主要的方法:协同过滤(CF)和基于内容过滤(CBF)。 我们所提出的方法与现有的两种相关办法中得到使用的功能和效果方面进行比较。相较于之前提出解决类似问题的方法,实验结果表明了该方法的有效性。 我们所提出的方法优于先前所示的实验结果。我们的论文推荐方法的最佳性能是基于最新一代的查询方法,考虑到全文内容,或长或短的查询和优秀论文的排名方法,考虑候选论文全部内容。总之,所有提出的这些基于实现和提供结果的文本挖掘方法的解决方法和贡献总结为综合性学术论文分析。所得到的结果与现有的方法相比,我们的方法表现出了良好的性能。