论文部分内容阅读
随着互联网上网页数量的爆炸式增长,网页中知识挖掘的研究成为热门话题。命名实体是网页中人们感兴趣的专有名词和特定的数量词,表示现实世界中具体的或抽象的实体。网页中的命名实体有很多种关系,“共现”(Co-occurrence)关系是其中一种,表示命名实体在文档集中共同出现。
网页中命名实体共现规律的统计研究与传统的数据挖掘不同,它必须基于大量网页数据,通过对所有网页进行解析,使用命名实体提取算法从解析之后的网页文本中提取出所要研究的命名实体,最后用统计的方法,对网页文本中这些共现的命名实体进行分析研究,发现命名实体之间存在的潜在联系和提出命名实体共现的一些规律。命名实体共现规律的研究刚刚兴起,共现现象的理论以及网页中命名实体的研究具有极其重要的理论和实践意义。
命名实体的提取是本文研究的基础。本文首先通过对三种命名实体提取模型进行深入的研究,总结各种模型的优缺点,并根据所选定的测试网页文本,从中选取一种算法作为后文实验中命名实体的提取方法。
FDC(frequency,term distance,co-collection ratio)算法是一种词汇共现算法,该算法通过对命名实体共现频度,命名实体相对距离和命名实体共文档率的探索和考察,得到命名实体之间的共现值。本文以FDC算法为基础,在词汇共现的基础上将其应用到网页中命名实体共现的研究,从CWT200G网页数据集中提取一万个网页作为测试网页文本集,并通过实验验证FDC算法的可行性。FDC词汇共现算法在计算网页中命名实体共现值时存在一些缺点,本文主要针对命名实体共现频度的计算和命名实体相对距离计算两个方面对原FDC算法进行改进。在计算命名实体共现频度时,使用命名实体的并集替代笛卡尔积;在计算命名实体相对距离时,加入对命名实体在文本中上下文位置的考虑。最后,通过实验证明改进后的FDC算法的有效性。