科技文献智能挖掘若干技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:liongliong557
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的迅猛发展,使得电子科技文献信息呈爆炸式的增长,这些海量科技文献为我们提供了一个巨大的知识宝库,如果能对其加以合理利用,不仅可以节省研究人员检索文献的时间,快速的开始课题的研究工作,而且可以更好的实现知识的共享。因此,科技文献的挖掘就成为了一个首要的课题。文献挖掘的主要目的就是从众多的文献数据中抽取出隐含的、有价值的知识和规律。本文的文献挖掘工作主要围绕以下两个问题开展:第一,科研人员如何快速定位到高质量的并且是自己感兴趣的文章;第二,如何从文献中获得某一领域的主要的研究主题和主要的研究机构。针对第一个问题本文提出了解决方案——聚簇主题对的挖掘。鉴于相关文献的数量大并且有的文章阅读价值不是很高,提出了一个文献阅读价值评价的线性模型;然后挑选阅读价值高的文献进行文本的聚类;最后对每一个文献簇进行主题的描述。经过上述三个步骤的处理之后,用户可以根据相应的主题描述选择阅读或者不阅读此类文章,从而大大缩短文献检索的时间。针对第二个问题本文进行了热度分析的工作,包括对某领域研究主题的热度分析和该领域研究机构的热度分析。研究主题的热度分析主要采用了基于关键词共现分析的文献挖掘方法,然后用可视化的方式展示某时间段内某一领域的整体分布情况。在科研机构的热度分析中,本文综合考虑机构的研究人员数、发文量和被引文量,提出了研究热度评价方法,对每一个研究机构在各个时间段进行热度评价,然后绘制出热度趋势图。综上两个挖掘工作中,工作的贡献度主要体现在两点:第一,在聚簇主题对的挖掘过程中在保证不造成太多信息损失的情况下,首先对文献根据阅读价值度的评价进行文献的筛选之后,进行聚类,提高了聚类的性能。第二,在热度分析中加入了对机构的研究热度评价方法,挖掘出某领域中各个机构的研究热度变化趋势。
其他文献
上海电信于1997年起,先后在市区和各个郊区建成各自独立的112系统。2001年上海电信首先在上海市区实现了112系统的互联,即能对市区所有用户线路进行自动测试和障碍报修。但市区
结合煤炭企业的特点,借鉴国内外发展企业集团的经验,煤炭企业组建企业集团时应坚持以下原则:1.要按客观经济规律办事。在组建之初.大型企业集团不宜太多,但要规范,以更好地
8月8日,是新疆经济报系与巴音郭楞蒙古自治州党委、阿克苏地委联办《巴音郭楞日报》和《阿克苏日报》5周年纪念日。5年前,新疆经济报系在中国传媒业首开联办地州党报的先河,
据英国驻华使领馆官方网站3月24日16:35:00 发布的消息,中央电视台(CCTV)落户媒体云集的伦敦。作为中国最大的广播媒体,中央电视台已在伦敦北部的卡姆登成立了新工作室。  作为英国政府的国际商务发展机构,英国贸易投资总署与伦敦官方投资服务机构——伦敦投资局一起为中央电视台落户伦敦做出了贡献。  伦敦是世界闻名的传媒中心,云集了多家国际广播及传媒公司。这些媒体之所以选择伦敦,是因为看中了这里
近年来,自由曲面的绘制,特别是细分曲面的快速绘制算法,成为了计算机图形学领域的一个研究热点。可编程图形处理器GPU(Graphics Processing Unit)的发展日益成熟,它专门为图
随着信息技术的发展,世界经济格局发生了巨大的变化,逐步形成了一个统一的一体化市场,市场竞争日趋激烈,社会的消费观念也不断发生变化,产品的功能已不再是消费者决定购买的
命名实体识别是现在自然语言处理研究的热点[1][2][3][4]。命名实体识别就是在文本中识别出日期、时间、数字、人名、地名、组织机构名和其他实体[8]。命名实体是信息抽取的
近年来,随着我国城市化建设的快速发展,轨道交通作为缓解城市交通压力、解决交通拥堵、支持城市可持续性发展的重要手段,受到了国家和各级政府的重点关注。地铁作为城市轨道交通
随着Internet上信息量的迅速增长,搜索引擎已经成为人们检索网上信息的主要手段,是互联网上人们获取信息最重要的方式之一。网络爬虫是搜索引擎中负责采集信息的模块。由于Inte
随着互联网的发展,电子黄页的应用越来越广泛,通过黄页发布的信息越来越多,仅能发布联系方式和简单介绍的旧系统已经不能满足新的要求。于是,批量信息发布技术成为了黄页系统