一种改进的基于内容的快速网页查重算法

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:tyftongyunfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页查重就是将大量网页集合中重复的网页找出来,并加以选择,使用户不用处理大规模重复信息,在节省时间的同时,提高信息检索等的应用效率.快速高效的网页查重算法无论对于采集器,还是web检索系统都十分重要.本文在对已有的文本查重算法进行比较研究的基础上,提出了一种基于特征码和词频的快速网页查重算法,该算法将特征码算法和传统的分类算法结合起来,在检索速度和效率上都取得了比较好的实验结果.
其他文献
本文提出了两种提高检索鲁棒性的方法:(1)词义熵权重计算公式;(2)两级处理策略.在NLPR-IR信息检索系统上,以TRECRobutt任务提供的大规模标准文本库(528155篇文档,250个公开的
会议
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点.产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注.本文面向商务信息抽
模式推理,又称为推理,是一个有着重要研究价值的课题.在问答系统的研究中,模式推理作为一种新的研究途径,具有较高的应用价值,也因此受到较高的关注和研究.在问答系统领域,模
会议
本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模
支持向量机是性能良好的二类分类模型,适用于处理文本分类问题.但支持向量机无法直接用于处理多类分类问题.本文考察了四种流行的多类支持向量机方法,包括one-against-rest,p
当前出版的医学信息呈指数级增长,给在生物医学文献中应用文本挖掘技术进行隐含医学知识发现提供了前所未有的机会.本文对隐含医学知识发现的研究内容、研究成果进行了阐述,
会议
本文以因特网(中国北方农业信息网等网站)上的种子资源作为语料资源,采用聚类的方法,生成训练语料,得到领域的主题集:通过训练主题和主题之间的关系,建立了针对水稻农作物的H
会议
随着基因和蛋白质序列的发布和分子生物学研究的发展,其相关的数据呈指数级增长.因此如何从海量的相关文献中直接获取生物学家研究领域的相关信息变得迫在眉睫.我们的研究主
本文介绍了一种定义类问题回答(QA)方法.为了能够自动地从大规模的文档集中识别出定义性的句子,没有利用传统的手工建立的模板或已标注的语料,而是利用了在线知识库(onlinekn
去除重复网页一直是信息检索领域的一个待解决的问题.本文基于双语文章的内容,提出了一种抽取特征词和特征句,判别跨语言重复网页的方法.并将其运用到了跨语言的重复网页的识