一种改进的基于内容的快速网页查重算法

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户：tyftongyunfeng

【摘要】

：

网页查重就是将大量网页集合中重复的网页找出来,并加以选择,使用户不用处理大规模重复信息,在节省时间的同时,提高信息检索等的应用效率.快速高效的网页查重算法无论对于采

【作者】

：

连浩[1]刘悦[2]许洪波[2]王斌[2]程学旗[2]

【机构】

：

中国科学院计算技术研究所,北京,100080

【出处】

：

全国第八届计算语言学联合学术会议

【发表日期】

：

2005年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页查重就是将大量网页集合中重复的网页找出来,并加以选择,使用户不用处理大规模重复信息,在节省时间的同时,提高信息检索等的应用效率.快速高效的网页查重算法无论对于采集器,还是web检索系统都十分重要.本文在对已有的文本查重算法进行比较研究的基础上,提出了一种基于特征码和词频的快速网页查重算法,该算法将特征码算法和传统的分类算法结合起来,在检索速度和效率上都取得了比较好的实验结果.

其他文献

TREC中提高检索鲁棒性的技术研究

本文提出了两种提高检索鲁棒性的方法:(1)词义熵权重计算公式;(2)两级处理策略.在NLPR-IR信息检索系统上,以TRECRobutt任务提供的大规模标准文本库(528155篇文档,250个公开的

会议

面向商务信息抽取的产品命名实体识别研究

市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点.产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注.本文面向商务信息抽

会议

商务信息抽取产品命名实体识别隐马尔可夫模型市场信息化自由文本原型系统识别方法内容管理科学领域关键技术数码和手机实验汉语电子

模式推理中的"图检索"算法

模式推理,又称为推理,是一个有着重要研究价值的课题.在问答系统的研究中,模式推理作为一种新的研究途径,具有较高的应用价值,也因此受到较高的关注和研究.在问答系统领域,模

会议

基于互联网的汉语术语定义提取研究

本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模

会议

基于互联网汉语术语定义语言学特征用词匹配算法空间模型隶属度智能向量提取实验人民基础概念词语抽取

面向文本分类的多类别SVM组合方式的比较

支持向量机是性能良好的二类分类模型,适用于处理文本分类问题.但支持向量机无法直接用于处理多类分类问题.本文考察了四种流行的多类支持向量机方法,包括one-against-rest,p

会议

文本分类支持向量机方法数据集多类分类问题性能差别中文分类中英文比较实验分类模型处理直接用应用考察差距

生物医学文献中的隐含知识发现

当前出版的医学信息呈指数级增长,给在生物医学文献中应用文本挖掘技术进行隐含医学知识发现提供了前所未有的机会.本文对隐含医学知识发现的研究内容、研究成果进行了阐述,

会议

基于HMM的农作物信息抽取

本文以因特网(中国北方农业信息网等网站)上的种子资源作为语料资源,采用聚类的方法,生成训练语料,得到领域的主题集:通过训练主题和主题之间的关系,建立了针对水稻农作物的H

会议

基于文本的生物信息获取

随着基因和蛋白质序列的发布和分子生物学研究的发展,其相关的数据呈指数级增长.因此如何从海量的相关文献中直接获取生物学家研究领域的相关信息变得迫在眉睫.我们的研究主

基于外部知识的定义类问题回答

本文介绍了一种定义类问题回答(QA)方法.为了能够自动地从大规模的文档集中识别出定义性的句子,没有利用传统的手工建立的模板或已标注的语料,而是利用了在线知识库(onlinekn

会议

外部知识问题回答文本检索会议方法在线知识库最好成绩文档集质量语料应用手工识别排序目标模板度量

基于特征句抽取的网页去重研究

去除重复网页一直是信息检索领域的一个待解决的问题.本文基于双语文章的内容,提出了一种抽取特征词和特征句,判别跨语言重复网页的方法.并将其运用到了跨语言的重复网页的识

会议

网页去重特征词特征句跨语言

一种改进的基于内容的快速网页查重算法

与本文相关的学术论文