基于海量网页的同类命名体共现统计规律的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zfbandfsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上网页数量的爆炸式增长,网页中知识挖掘的研究成为热门话题。命名实体是网页中人们感兴趣的专有名词和特定的数量词,表示现实世界中具体的或抽象的实体。网页中的命名实体有很多种关系,“共现”(Co-occurrence)关系是其中一种,表示命名实体在文档集中共同出现。   网页中命名实体共现规律的统计研究与传统的数据挖掘不同,它必须基于大量网页数据,通过对所有网页进行解析,使用命名实体提取算法从解析之后的网页文本中提取出所要研究的命名实体,最后用统计的方法,对网页文本中这些共现的命名实体进行分析研究,发现命名实体之间存在的潜在联系和提出命名实体共现的一些规律。命名实体共现规律的研究刚刚兴起,共现现象的理论以及网页中命名实体的研究具有极其重要的理论和实践意义。   命名实体的提取是本文研究的基础。本文首先通过对三种命名实体提取模型进行深入的研究,总结各种模型的优缺点,并根据所选定的测试网页文本,从中选取一种算法作为后文实验中命名实体的提取方法。   FDC(frequency,term distance,co-collection ratio)算法是一种词汇共现算法,该算法通过对命名实体共现频度,命名实体相对距离和命名实体共文档率的探索和考察,得到命名实体之间的共现值。本文以FDC算法为基础,在词汇共现的基础上将其应用到网页中命名实体共现的研究,从CWT200G网页数据集中提取一万个网页作为测试网页文本集,并通过实验验证FDC算法的可行性。FDC词汇共现算法在计算网页中命名实体共现值时存在一些缺点,本文主要针对命名实体共现频度的计算和命名实体相对距离计算两个方面对原FDC算法进行改进。在计算命名实体共现频度时,使用命名实体的并集替代笛卡尔积;在计算命名实体相对距离时,加入对命名实体在文本中上下文位置的考虑。最后,通过实验证明改进后的FDC算法的有效性。  
其他文献
信息技术的迅猛发展给人们的生产生活带来了深远的影响。相对于文字、语言之类的抽象信息表示形式,视频、图像具有直观、生动、易于理解、通用性强等特征。但是由于视频图像
随着数据库和信息检索技术的飞速发展,如何在关系数据管理系统中实现信息检索的功能,使普通用户或者Web用户不需要了解关系数据库模式、也不用懂得如何书写SQL查询,仅使用简
实体关系抽取的基本任务是寻找并判定实体对之间存在的特定关系(如雇佣关系)。“共现”(co-occurrence)即为其中的一种,是指词汇在文档集中共同出现,以一个词为中心,可以找到
随着互联网的发展和网络规模的扩大,当前广泛使用的IPv4地址空间即将耗尽,同时在服务质量、安全性、移动性和满足新的应用等方面不能满足快速发展的互联网的要求,为此,IETF(I
鉴于信息安全等级保护的重要性,世界各国政府对其相当重视,有关人员对其的研究一直没有间断,纷纷制订了信息安全等级保护的战略与措施。其中,访问控制的研究是很重要的一部分,其为
似乎不相关回归模型(seemingly unrelated regressions model SUR)是由多个回归方程组成的方程组,它与多元回归模型的区别在于允许各方程存在不同的自变量,这样的特性给统计
门限数字签名是对普通数字签名的一种推广,也是门限密码体制的重要组成部分,在电子商务和电子政务等领域都有着重要的应用价值。它的主要功能是将签名权力以门限的方式分发给
本课题依托于中华人民共和国住房和城乡建设部关于全国房屋登记信息系统的可行性研究。   随着信息技术的快速发展,电子政务在全球范围内收到越来越多的重视。为了应对这
随着计算机技术的发展,信息化在农业生产中的应用越来越广泛,生理生态模型主要用数学模型模拟作物与外界条件对作物生长的影响,成功的生理生态模型可广泛应用于理解、预测和调控
煤矿安全生产一直是关系到煤炭工业持续健康发展的头等大事。近年来,煤矿事故频发,每年都有成千上万人在煤矿事故中丧生。因此提高煤矿安全生产迫在眉睫。目前,煤矿企业使用