基于维基百科的新闻知识库构建方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lovejr622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的发展和大数据时代的到来,网络知识库应用越来越得到用户的关注,比如智能问答系统,Google的知识图谱,百度知识图谱等,这些应用都是由强大的知识库为支撑的。然而基于网络数据生成的知识库系统,由于用语不严谨,不适用于新闻媒体。基于用户搜索行为构建的知识图谱,语义相关性弱。另一方面,新闻媒体利用传统的数据库技术无法有效的组织和管理海量的历史新闻稿,而存储历史稿件又是一种巨大的资源浪费。  针对上述问题,本文提出了基于维基百科的新闻知识库构建方法。首先,提出了一种基于维基百科的新闻概念抽取方法,该方法通过维基百科来规范概念抽取的结果,可以得到更准确的新闻概念。在新闻概念抽取的基础之上,提出了一种基于概率信息和维基百科分类信息的新闻要素识别方法,该方法提升了新闻要素的识别率,能够更准确的识别新闻要素。在关联概念间的关系时,提出了一种基于共现性和维基百科超链接的语义相关度计算方法。利用共现性,可以保证计算的结果是数据驱动的,能够反应数据的真实情况,而基于维基百科超链接的计算结果则有效避免了数据量少时带来的偶然性。该方法能发现更准确、具有多样性的语义相关词,能提高用户体验。最后,基于上述研究基础,通过挖掘分析历史新闻稿件,构建了一个新闻知识库系统。通过该新闻知识库系统能够有效的组织和管理历史稿件,充分挖掘和利用了历史新闻稿件的价值。
其他文献
随着各种信息处理技术的发展,人们可以访问的数字资源越来越多,如何从海量数据中方便快捷地得到人们所需要的信息成为人们非常关心的问题。  目前的信息服务还处于一种基于关
Deep Web是Web数据管理研究面临的一个新的领域,集成系统将收集不同Web数据源返回的查询结果并加以集成,以提供给用户一个统一的视图。为了保证集成后的查询结果具有很高的用户
随着物种基因组测序的完成,揭示基因组序列所包含和隐藏的生物信息,乃是一段时间内生物学领域关注的焦点。其中,对基因表达及其功能的探索和研究是至关重要的一步。那么,各种相关
当前,高性能计算已经全面进入“千万亿次计算”时代。根据最新的Top500列表显示,理论峰值1Petaflops以上的超级计算机已经达到55台。面向P级、E级计算,应用数学算法的设计应该考
无线多跳网络包括无线Ad Hoc网络、无线Mesh网络和无线传感器网络,其应用场景非常广泛,如应急通信、防灾减灾、环境监测等。无线多跳网络作为一种新兴的无线网络技术,还可以与传
随着互联网与应用的快速蓬勃发展,网络带宽和服务复杂度不断增长,从路由查找到入侵检测等数据包处理技术面临性能挑战。多核处理器可以通过数据包并行处理有效提升数据包处理速
自从W3C在1998年二月发布XML标准以来,XML这种数据格式以其容易掌握、结构清晰等优点得到广泛认可,并在很多商业和研究领域得到了越来越多的应用。随着XML数据的增多,人们开始考
近年来随着Internet的发展,以及社会对高等教育的需求日趋强烈,现代远程教育成为越来越被人们认识、重视和利用起来的一种新的教育模式,也促进了新的教育革命,深刻改变着教与学的
存储技术的迅速发展使得将数据对象全生命周期的状态变化纳入到数据管理的范畴越来越成为可能。数据的全生命周期管理要求掌握和理解数据的产生、转换、更新等过程,这也是数据
基于模型的软件测试是基于软件的需求分析与设计模型,提取测试信息,生成一套测试用例的技术。针对软件的不同特征和不同目的,研究人员提出过多种软件开发与测试模型。随着基于UM