基于维基百科的新闻知识库构建方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：lovejr622

【摘要】

：

伴随着互联网的发展和大数据时代的到来，网络知识库应用越来越得到用户的关注，比如智能问答系统，Google的知识图谱，百度知识图谱等，这些应用都是由强大的知识库为支撑的。然而基于

【作者】

：

何覃

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

维基百科新闻知识库概念抽取关联挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着互联网的发展和大数据时代的到来，网络知识库应用越来越得到用户的关注，比如智能问答系统，Google的知识图谱，百度知识图谱等，这些应用都是由强大的知识库为支撑的。然而基于网络数据生成的知识库系统，由于用语不严谨，不适用于新闻媒体。基于用户搜索行为构建的知识图谱，语义相关性弱。另一方面，新闻媒体利用传统的数据库技术无法有效的组织和管理海量的历史新闻稿，而存储历史稿件又是一种巨大的资源浪费。　　针对上述问题，本文提出了基于维基百科的新闻知识库构建方法。首先，提出了一种基于维基百科的新闻概念抽取方法，该方法通过维基百科来规范概念抽取的结果，可以得到更准确的新闻概念。在新闻概念抽取的基础之上，提出了一种基于概率信息和维基百科分类信息的新闻要素识别方法，该方法提升了新闻要素的识别率，能够更准确的识别新闻要素。在关联概念间的关系时，提出了一种基于共现性和维基百科超链接的语义相关度计算方法。利用共现性，可以保证计算的结果是数据驱动的，能够反应数据的真实情况，而基于维基百科超链接的计算结果则有效避免了数据量少时带来的偶然性。该方法能发现更准确、具有多样性的语义相关词，能提高用户体验。最后，基于上述研究基础，通过挖掘分析历史新闻稿件，构建了一个新闻知识库系统。通过该新闻知识库系统能够有效的组织和管理历史稿件，充分挖掘和利用了历史新闻稿件的价值。

其他文献

基于领域本体的个性化推荐关键技术的研究与实现

随着各种信息处理技术的发展，人们可以访问的数字资源越来越多，如何从海量数据中方便快捷地得到人们所需要的信息成为人们非常关心的问题。　　目前的信息服务还处于一种基于关

学位

信息处理技术个性化推荐领域本体技术体系

Deep Web数据集成中的查询结果处理研究

Deep Web是Web数据管理研究面临的一个新的领域，集成系统将收集不同Web数据源返回的查询结果并加以集成，以提供给用户一个统一的视图。为了保证集成后的查询结果具有很高的用户

学位

暗网资源数据集成查询结果处理用户满意度

基因表达与功能相关算法研究及并行优化实现

随着物种基因组测序的完成，揭示基因组序列所包含和隐藏的生物信息，乃是一段时间内生物学领域关注的焦点。其中，对基因表达及其功能的探索和研究是至关重要的一步。那么，各种相关

学位

并行计算生物信息学嵌合芯片基因电子克隆基因表达分子空间结构叠合算法

面向千万亿次计算的高可扩展大型非结构化网格有限元算法研究

当前，高性能计算已经全面进入“千万亿次计算”时代。根据最新的Top500列表显示，理论峰值1Petaflops以上的超级计算机已经达到55台。面向P级、E级计算，应用数学算法的设计应该考

学位

有限元算法非结构化网格组合网格超级计算机

无线多跳网络的节能拓扑控制与路由选择算法研究

无线多跳网络包括无线Ad Hoc网络、无线Mesh网络和无线传感器网络，其应用场景非常广泛，如应急通信、防灾减灾、环境监测等。无线多跳网络作为一种新兴的无线网络技术，还可以与传

学位

无线多跳网络节能拓扑控制算法路由协议局部节能生成树

数据包多核并行处理研究与实现

随着互联网与应用的快速蓬勃发展，网络带宽和服务复杂度不断增长，从路由查找到入侵检测等数据包处理技术面临性能挑战。多核处理器可以通过数据包并行处理有效提升数据包处理速

学位

数据包处理多核处理器内存管理负载均衡

XML信息检索中用户接口的研究

自从W3C在1998年二月发布XML标准以来，XML这种数据格式以其容易掌握、结构清晰等优点得到广泛认可，并在很多商业和研究领域得到了越来越多的应用。随着XML数据的增多，人们开始考

学位

信息检索标记语言用户接口软件设计

基于WEB挖掘和移动Agent的智能网络考试系统设计与研究

近年来随着Internet的发展，以及社会对高等教育的需求日趋强烈，现代远程教育成为越来越被人们认识、重视和利用起来的一种新的教育模式，也促进了新的教育革命，深刻改变着教与学的

学位

高等教育考试系统智能网络数据挖掘

档案数据库多版本管理方案

存储技术的迅速发展使得将数据对象全生命周期的状态变化纳入到数据管理的范畴越来越成为可能。数据的全生命周期管理要求掌握和理解数据的产生、转换、更新等过程，这也是数据

学位

档案数据库多版本管理电子文件并发控制

基于UML的测试用例生成方法研究及应用

基于模型的软件测试是基于软件的需求分析与设计模型，提取测试信息，生成一套测试用例的技术。针对软件的不同特征和不同目的，研究人员提出过多种软件开发与测试模型。随着基于UM

学位

软件测试需求分析设计模型测试用例

基于维基百科的新闻知识库构建方法研究

与本文相关的学术论文