Wiki词目发现和词注辅助生成技术的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:wu21211721
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,搜索引擎的流行使得人们能方便快捷地获得各类信息。人们对信息的需求带动了Web的繁荣,使得Web的信息量持续膨胀。在繁杂的数据海洋里,那些高质量的内容很容易被重复的、细枝末节的低质量内容所掩盖。信息整理成为一种需要。Wiki是一种对信息进行整理的有效方式,其高质量的数据为广大网民所喜闻乐见。许多网站纷纷建立各自的Wiki并不断累积扩展,以方便用户获取相关信息。然而,据我们所知,现在Wiki网站的词条添加工作基本上是依靠人力手工进行的,而人工添加词条存在很大局限:1)编辑人员的数量总归有限;2)词条的质量相当程度地依赖于编辑者的水平;3)更新速度难以跟上当前Web信息的变化。 本论文讨论如何从一个话题相关、链接密集的网页集合中,萃取出描述这些主题的相关信息,生成一个Wiki结构的词典,并尝试将这一过程尽可能地自动化,使用户经过少量修改整理,就可以建立起一个质量可观的Wiki库。主要内容包括: 1.分析网页集合的文本、链接结构的形成过程,将这一过程抽象为客观领域的实体在Web上的投影; 2.基于链接分析来估计词目在网页文本中的流行程度,提出一个从大量网页中发现Wiki词目的算法,该算法提取出的这组词目能够代表这个网页集合所描述领域的话题: 3.在已有文本表示模型基础上,针对Wiki生成问题的特点,提出以投影模型来表示同一实体投影成不同文本的过程,讨论如何借助PLSA(潜在语义分析)的方法从切分出的大批量的文本片断中,生成给定词目的词注参考列表; 4.设计并实现了一个原型系统,支持从百万量级网页集合中生成Wiki结构。 在百万规模网页集合上的实验表明,本文提出的Wiki结构辅助生成方法是可行并且有效的。与维基百科实际词条的对比表明,词目发现算法能够发现网页集合对应相关话题中的大多数主要词目,词注辅助生成方法生成的词注参考列表中的各个文本片断能够从不同侧面描述Wiki词目对应实体的特征。
其他文献
统计语言模型是很多自然语言处理任务的重要模块。一般而言,用来训练语言模型的数据量越大,训练得到的语言模型质量越好。Google公司通过LDC向学术界公布了Web1T词频数据,这部分
随着Internet的发展和企业级分布式应用体协结构的不断成熟,性能和伸缩性问题越来越被认为是大、中型服务系统所面临的最严重的挑战之一。缓存技术是提高企业级应用系统性能和
我国是世界上最大的棉花生产和消费国,棉花产业在国民经济中具有举足轻重的作用,棉种质量的好坏直接影响棉花作物产量的高低和产品的优劣。实际生产中的棉种混有大量未成熟棉种
网格提出的初衷是为了解决动态的跨域的分布式计算和资源共享。为了支持这种分布式的环境,需要一种轻量级的,跨域的动态委托授权方法。这种授权必须可以把权限授予原先并不熟识
在Web服务技术蓬勃发展和广泛应用的今天,Web服务的服务质量(QualityofService,QoS)越来越受到关注。当前很多研究集中在基于QoS的Web服务应用之上,如支持QoS的动态服务组装和调
长期以来,数字音频编码技术一直掌握在几个国际企业手中,由于在音频产业中缺乏自主权,中国每年要支付可观的专利费。2007年1月20日,信息产业部与广东省人民政府在人民大会堂新闻
随着网络与通讯技术教育应用的进一步普及和深化,计算机支持的协同学习(CSCL)的研究和应用获得了广泛关注,已成为目前的一个研究热点。协同学习的最终目标是学习者在完成学习
Chord以其对数级的较优定位效率,良好的可扩展性和容错性等特点成为结构化对等网络的典型代表。但是其网络拓扑中并没有考虑节点之间的物理距离,这样容易形成覆盖层与物理层
蛋白质结构决定蛋白质功能。随着各种基因组计划的完成,产生了海量的蛋白质序列数据,通过传统试验的方法已经无法对这些数据进行及时地处理。因此,利用计算方法进行蛋白质三维结
本文设计了数字电视机顶盒中的音视频解码SoC芯片的传输流解复用器。   数字电视(DTV)是指采用数字技术将活动图像和声音等信号进行编码,经存储或实时广播后,供用户接收、播