基于内容的跨语言网页去重研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：willamshao520

【摘要】

：

去除重复网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析，提出了一种根据词频统计的抽取特征词和特征句，并根据特征句来判别重复

【作者】

：

彭渊

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2005年期

【关键词】

：

网页去重特征词特征句跨语言搜索引擎网页识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

去除重复网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析，提出了一种根据词频统计的抽取特征词和特征句，并根据特征句来判别重复网页的方法。同时将其运用到了跨语言的重复网页的识别上。实验结果表明：该方法对重复网页的识别准确率高，达到了实用的程度。同时，该方法对于双语平行语料的自动挖掘也有一定的帮助。本文主要进行了以下几个方面的工作：1.给出重复网页的定义，并根据定义设计出重复网页的识别算法。2.研究单语网页去重的高效算法，使得算法可以达到实用化的程度。并进行了测试。3.跨语言信息检索是信息检索研究的一个热点，本文也研究了跨语言网页去重的算法，以适应互联网信息检索的发展趋势。

其他文献

基于复合数值方法的水流动画模拟

随着计算机图形学的发展,对自然景物的模拟引起了人们的普遍关注,其中水流现象的模拟也成为了热门研究课题。要得到逼真的水流动画,关键就是模拟出水流在各个时刻的形态。

学位

计算机动画浅水波方程有限差分方法有限体积方法

基于议价机制的网格资源管理分配的研究

网格是当前并行与分布式计算技术的一个重要发展方向,其目标是实现对地理上广泛分布的大量异构资源进行共享。资源管理是网格的关键技术之一,但是由于网格固有的异构性、分布

学位

网格资源管理协商理论议价

基于序列数据库的数据挖掘系统的设计和研究

序列模式挖掘就是发现序列数据库中的频繁子序列作为用户感兴趣的模式。它是当前数据挖掘领域中一个很重要、很活跃的研究课题。在现实生活中有着广泛的应用,例如:顾客购物模

学位

数据仓库知识库序列模式挖掘算法

电力系统动态记录与故障分析支撑平台的研究

大型电力系统的运行人员，需要借助各种实时监控及故障分析系统，对电力系统进行有效地监控，及时地发现事故隐患，准确地找出故障位置与原因。目前，在电力系统中应用的数据采集与

学位

电力系统动态记录故障分析支撑平台

基于背景差分算法的目标监控系统的研究

本文首先从硬件结构和软件结构两方面对基于背景差分算法的目标监控系统进行分析，建立了系统的总体设计框架。然后，重点讨论了基于特征点的背景匹配算法和基于动态阈值的

学位

背景差分目标检测动态存储器目标跟踪目标监控系统动态集成

基于Windows CE.NET的微内核的分析与设计

Microsoft公司的嵌入式操作系统Windows CE.NET是一个十分流行的嵌入式系统。它可以使用应用程序开发工具eVisual C++，强大的开发平台Platform Builder，它丰富模块化的组件

学位

嵌入式系统微内核内存管理多线程体系

基于IPv6的协议测试方法的研究

IPv6协议是IPv4协议的改进版本，是下一代Internet主干协议的主要候选者。协议是网络的灵魂，正确、有效的协议是网络赖以生存和发展的决定因素。协议测试技术是协议正确实现以及

学位

IPv6协议测试一致性测试分布式测试TTCN虚拟逻辑测试结构模型

高可用性虚拟化管理框架的研究与实现

最近几年,越来越多的用户考虑建设虚拟化管理中心。究其原因,主要有三点：硬件成本降低、空间更节省、能耗更环保。这样不仅可以帮助用户把应用从物理服务器迁移到虚拟机(VM)上

学位

虚拟化高可用性集群LVS负载均衡算法

基于WEB的IP城域网综合网管系统的研究与应用

由于网络规模的不断扩大,网络管理研究成为IT业界的热门研究方向之一。随着用户对网络服务质量提出了更高的要求,大型的IP网络服务商急需高性能的、可靠的网络管理系统对网络

学位

网络管理IPWEBXML拓扑发现

基于灰度图像的数字水印技术的研究

随着多媒体技术和计算机网络技术的发展,数字产品的版权保护问题显得尤为重要,如何确保数字产品的安全已经成为国内外研究的热点。数字水印技术作为一种新的版权保护方法,从2

学位

数字水印离散余弦变换离散小波变换图像置乱奇异值分解人眼视觉特性混沌序列

基于内容的跨语言网页去重研究

其他学术论文