论文部分内容阅读
近年来,搜索引擎的流行使得人们能方便快捷地获得各类信息。人们对信息的需求带动了Web的繁荣,使得Web的信息量持续膨胀。在繁杂的数据海洋里,那些高质量的内容很容易被重复的、细枝末节的低质量内容所掩盖。信息整理成为一种需要。Wiki是一种对信息进行整理的有效方式,其高质量的数据为广大网民所喜闻乐见。许多网站纷纷建立各自的Wiki并不断累积扩展,以方便用户获取相关信息。然而,据我们所知,现在Wiki网站的词条添加工作基本上是依靠人力手工进行的,而人工添加词条存在很大局限:1)编辑人员的数量总归有限;2)词条的质量相当程度地依赖于编辑者的水平;3)更新速度难以跟上当前Web信息的变化。
本论文讨论如何从一个话题相关、链接密集的网页集合中,萃取出描述这些主题的相关信息,生成一个Wiki结构的词典,并尝试将这一过程尽可能地自动化,使用户经过少量修改整理,就可以建立起一个质量可观的Wiki库。主要内容包括:
1.分析网页集合的文本、链接结构的形成过程,将这一过程抽象为客观领域的实体在Web上的投影;
2.基于链接分析来估计词目在网页文本中的流行程度,提出一个从大量网页中发现Wiki词目的算法,该算法提取出的这组词目能够代表这个网页集合所描述领域的话题:
3.在已有文本表示模型基础上,针对Wiki生成问题的特点,提出以投影模型来表示同一实体投影成不同文本的过程,讨论如何借助PLSA(潜在语义分析)的方法从切分出的大批量的文本片断中,生成给定词目的词注参考列表;
4.设计并实现了一个原型系统,支持从百万量级网页集合中生成Wiki结构。
在百万规模网页集合上的实验表明,本文提出的Wiki结构辅助生成方法是可行并且有效的。与维基百科实际词条的对比表明,词目发现算法能够发现网页集合对应相关话题中的大多数主要词目,词注辅助生成方法生成的词注参考列表中的各个文本片断能够从不同侧面描述Wiki词目对应实体的特征。