基于内容的跨语言网页去重研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:willamshao520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
去除重复网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析,提出了一种根据词频统计的抽取特征词和特征句,并根据特征句来判别重复网页的方法。同时将其运用到了跨语言的重复网页的识别上。实验结果表明:该方法对重复网页的识别准确率高,达到了实用的程度。同时,该方法对于双语平行语料的自动挖掘也有一定的帮助。本文主要进行了以下几个方面的工作:1.给出重复网页的定义,并根据定义设计出重复网页的识别算法。2.研究单语网页去重的高效算法,使得算法可以达到实用化的程度。并进行了测试。3.跨语言信息检索是信息检索研究的一个热点,本文也研究了跨语言网页去重的算法,以适应互联网信息检索的发展趋势。
其他文献
随着计算机图形学的发展,对自然景物的模拟引起了人们的普遍关注,其中水流现象的模拟也成为了热门研究课题。要得到逼真的水流动画,关键就是模拟出水流在各个时刻的形态。
网格是当前并行与分布式计算技术的一个重要发展方向,其目标是实现对地理上广泛分布的大量异构资源进行共享。资源管理是网格的关键技术之一,但是由于网格固有的异构性、分布
序列模式挖掘就是发现序列数据库中的频繁子序列作为用户感兴趣的模式。它是当前数据挖掘领域中一个很重要、很活跃的研究课题。在现实生活中有着广泛的应用,例如:顾客购物模
大型电力系统的运行人员,需要借助各种实时监控及故障分析系统,对电力系统进行有效地监控,及时地发现事故隐患,准确地找出故障位置与原因。 目前,在电力系统中应用的数据采集与
本文首先从硬件结构和软件结构两方面对基于背景差分算法的目标监控系统进行分析,建立了系统的总体设计框架。然后,重点讨论了基于特征点的背景匹配算法和基于动态阈值的
Microsoft公司的嵌入式操作系统Windows CE.NET是一个十分流行的嵌入式系统。它可以使用应用程序开发工具eVisual C++,强大的开发平台Platform Builder,它丰富模块化的组件
IPv6协议是IPv4协议的改进版本,是下一代Internet主干协议的主要候选者。协议是网络的灵魂,正确、有效的协议是网络赖以生存和发展的决定因素。协议测试技术是协议正确实现以及
最近几年,越来越多的用户考虑建设虚拟化管理中心。究其原因,主要有三点:硬件成本降低、空间更节省、能耗更环保。这样不仅可以帮助用户把应用从物理服务器迁移到虚拟机(VM)上
由于网络规模的不断扩大,网络管理研究成为IT业界的热门研究方向之一。随着用户对网络服务质量提出了更高的要求,大型的IP网络服务商急需高性能的、可靠的网络管理系统对网络
随着多媒体技术和计算机网络技术的发展,数字产品的版权保护问题显得尤为重要,如何确保数字产品的安全已经成为国内外研究的热点。数字水印技术作为一种新的版权保护方法,从2