论文部分内容阅读
伴随着互联网的发展和大数据时代的到来,网络知识库应用越来越得到用户的关注,比如智能问答系统,Google的知识图谱,百度知识图谱等,这些应用都是由强大的知识库为支撑的。然而基于网络数据生成的知识库系统,由于用语不严谨,不适用于新闻媒体。基于用户搜索行为构建的知识图谱,语义相关性弱。另一方面,新闻媒体利用传统的数据库技术无法有效的组织和管理海量的历史新闻稿,而存储历史稿件又是一种巨大的资源浪费。 针对上述问题,本文提出了基于维基百科的新闻知识库构建方法。首先,提出了一种基于维基百科的新闻概念抽取方法,该方法通过维基百科来规范概念抽取的结果,可以得到更准确的新闻概念。在新闻概念抽取的基础之上,提出了一种基于概率信息和维基百科分类信息的新闻要素识别方法,该方法提升了新闻要素的识别率,能够更准确的识别新闻要素。在关联概念间的关系时,提出了一种基于共现性和维基百科超链接的语义相关度计算方法。利用共现性,可以保证计算的结果是数据驱动的,能够反应数据的真实情况,而基于维基百科超链接的计算结果则有效避免了数据量少时带来的偶然性。该方法能发现更准确、具有多样性的语义相关词,能提高用户体验。最后,基于上述研究基础,通过挖掘分析历史新闻稿件,构建了一个新闻知识库系统。通过该新闻知识库系统能够有效的组织和管理历史稿件,充分挖掘和利用了历史新闻稿件的价值。