维基百科大数据的知识挖掘与管理方法研究

被引量 : 17次 | 上传用户:ppmm112233
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,人类已经进入大数据时代,生产、生活、科研、服务等无不因大数据而改变。与此同时,传统的“数据→信息→知识→智慧→决策”的知识形成过程与决策产生模式面临着大数据的体量巨大、模态多样、真伪难辨以及更新迅速等特性的严峻挑战。将繁芜庞杂的大数据,转换为信息和知识,才能帮助我们做出聪明的选择。实践证明,通过大规模群体协作、非线性、去中心化、自下而上的群体智慧方法,是实现大数据“去芜存菁”、“沙里淘金”的有效途径。维基百科是通过群体协作生产知识的最典型平台,同时也是大数据的典型代表。如何从维基百科大数据中挖掘高质量的领域知识,并实现高质量的知识管理是本文主要研究目标。围绕此目标,本文的主要研究工作如下:(1)总结了维基百科群体协作环境的特征,其中包括协同编辑词条的方法、词条质量等级的设置、高质量词条的评选规则。(2)研究了编辑者群体协作行为对词条质量的影响。基于用户讨论页建立了编辑者网络,分析了编辑者群体里对话者比例与编辑者网络聚类系数对词条质量升级速度的影响,为后面的词条质量检测打下了基础。(3)提出了一种维基百科知识质量管理方法,同时应用词条属性与编辑者属性,实现对全部等级的词条评价质量。这些属性数据都可以从维基百科数据库获取,而不同语言版本的维基百科数据库结构都是相同的,因此本文的词条质量检测方法可以方便的用在各种语言版本的词条上。(4)应用上述知识质量管理方法,筛选出维基百科大数据里指定领域的高质量词条,并进一步分析这些高质量词条与领域的相关度。抽取那些与领域紧密相关的高质量词条作为本体的概念,抽取这些词条的关系作为本体的关系,构建高质量的领域本体。作为对这个构建本体方法的检验,本文也将构建的领域本体用到O-RGPS领域建模工具中,用来标注角色(Role)、目标(Goal)、流程(Process)、服务(Service)等领域模型。同时,也把领域本体用到S2R2这个Web服务注册管理平台,以支持Web服务的语义标注以及语义搜索。
其他文献
本文利用沥青混合料基本性能试验测试系统(SPT)对新疆地区常用的沥青混合料类型进行动态模量试验,从试验结果中可以得到,动态模量随试验温度的升高而降低,动态模量随荷载频率
"大学生学习性投入"是近20年来大学生学习与发展领域中的关键概念,对于探索大学教育过程及其有效性具有重要价值。本研究在大学影响力模型的分析框架之下,采用"中国大学生学
本文结合我国医疗卫生改革的基本制度,应用Hotelling模型来分析"政府单一化"、"完全市场化"和"多元化竞争"三种医疗服务市场模式的运作特点,并对比不同模式下的医疗服务市场
喜马拉雅FM、知乎、得到的生态结构,如何决定其商业模式?知识付费并非新鲜事物,只是借助互联网的推力,知识付费才真正地走向大众面前,开始崭露头角,知识付费市场仿佛突然被激
<正>建屋起房、修宫造殿都离不开砖瓦这一类建筑陶。早在南诏、大理国时期,云南就大量接受中原先进的文化技术,开始大量烧制建筑用陶,生产规模和技术已很成熟,主要产品为梵文
本文对掺加了抗车辙剂的沥青混合料进行了试验研究,选择了普通沥青混合料和改性沥青混合料进行对比,首先对高温性能进行了试验,在此基础上对低温性能和水稳定性进行试验分析
企业要生存和发展,必须要有竞争力,要有市场青睐的产品,要有更低的生产成本。因此很多钢铁企业抓紧进行生产线技术升级,淘汰落后设备,进一步提高产品质量并加大新产品开发力度,提高
作为动脉系统中常见的疾病,下肢动脉血管疾病对人们的健康与正常生活有较大影响,如何对下肢动脉血管疾病进行有效诊断以便进行治疗,是值得关注的问题。CT血管成像在了解患者
<正>如果以历史画的创作与历史本身进行比较,油画《曾国藩创建湘军》确实有很大的局限性,因为我们无法用固定的一帧景象去完整地表达历史的苍凉与厚重,更不可能准确无误的表
随着我国医疗体制改革不断深入,国家推出社区医院、各种医疗保险制度以及从宏观政策上鼓励和引导社会资金兴办非公立医院等措施,以期逐步解决广大人民群众看病难、看病贵等医