论文部分内容阅读
据不完全统计,每年在世界各地举办的国际学术会议的数量达到了1万多次,参会人次也有百万之巨,学术交流活动日益频繁。而且,学术会议的种类繁多,特点复杂,有的是一次性的会议,有的则是系列性的会议。面对数量庞大的研究者关于学术会议信息检索的急切需求,主要关注于文献检索的现有学术搜索引擎与数字图书馆已显得力不从心,难以满足用户的检索要求。Acrost是一个面向CFP(Call For Papers)的主题自适应学术会议搜索系统,它具有基于主题检索方式的特点,除了提供学术会议检索服务之外,它还具有投稿推荐特色服务。为了获取充足的数据源,系统使用了两种方式:(1)基于通用搜索引擎的方法,节省了大量的资源开销,采用支持向量机分类器过滤噪声信息;(2)基于向量空间模型的主题爬虫,定向地爬取学术会议网页。在获取了原始的学术会议网页之后,利用正则表达式与条件随机场分别对半结构化和非结构化网页进行信息抽取和实体识别,从而采集学术会议元数据。然后,利用Lucene对元数据建立倒排索引;同时,提出了一种基于增量层次聚类算法的主题发现方法,对用户上传的PDF文档进行解析并自动发现其所属主题领域。另外,系统中建立了一套基于学术影响因子的学术会议评价模型,其考虑的指标包括篇均被引用计数、论文录用率等。实验结果表明,Acrost系统的学术会议检索服务的召回率、准确率及F度量分别是84.8%、90.5%、87.6%;投稿推荐服务的召回率、准确率及F度量分别是60.8%、68.7%、64.5%;同时,Acrost系统能够快速地响应用户的服务请求。这表明,Acrost系统在相关性判定与运行速度方面都具备了较好的性能。