【摘 要】
:
随着互联网的日益普及和迅猛发展,网络上的信息量呈现爆炸式的增长,搜索引擎成为人们获取信息的主要方式,而且越来越受到重视。重复网页检测一直以来都是搜索引擎研究的重点
论文部分内容阅读
随着互联网的日益普及和迅猛发展,网络上的信息量呈现爆炸式的增长,搜索引擎成为人们获取信息的主要方式,而且越来越受到重视。重复网页检测一直以来都是搜索引擎研究的重点。本文就如何提高中文重复网页的检测算法效率进行研究。通过比较目前国内外重复网页检测的若干方法,本人发现基于内容的重复网页检测算法有较好的效果,而且加入链接和链接信息并没有明显改善算法性能,于是着手研究基于内容的检测算法。DSC重复网页检测算法是典型的基于内容的重复网页检测算法,并且被广泛应用。该算法基于网页语法提取网页特征,实验发现该算法不适用于短小文档的检测。Google对DSC算法的试验评估发现在该算法中加入词频信息会提高算法效率。本文结合了词频统计和自然语言理解等策略,在计算词条权重时考虑了词频,倒置文档频率,位置等内容信息,各种信息按一定比例用统计的方法得到关键词权值;另外本文将向量空间模型应用到网页相似度计算中来,将网页进行解析预处理,提取出网页纯文本,然后进行网页中文分词,统计词条权值,提取网页特征向量得到网页文本向量表示后计算这些特征向量的余弦系数便得到网页相似度值。本文也对改进算法进行实验,分析实验结果发现本文的改进中文重复网页检测算法较之前的DSC算法在网页查重的准确率上有所改善。最后本人提出了若干需要后续进一步的地方。
其他文献
异构多处理器系统由一组具有不同处理能力的处理器构成,任务调度成为改进系统性能的关键因素。如何合理地将任务分配给不同处理器,使整个系统性能达到最佳,是任务调度需要解决的
随着科学技术的飞速发展,人们的安全意识不断提高。传统的识别手段己不适应现代生活的需要,基于多通道混合特征的身份识别技术进入了迅速发展的阶段,其中,基于唇动的身份识别
随着车辆的普及和移动Ad Hoc网络技术的不断发展,车载Ad hoc网络(Vehicle Ad Hoc Network,VANET)逐渐成为新兴的研究领域。VANET是指道路上车辆间、车辆与固定接入点之间相互
科学技术飞速发展的当今社会,一个重要的科学技术——计算机科学技术,不容忽视,而且其应用已经在我们不知不觉中渗入到了我们这个社会的角角落落当中。而在日常生活的实际应
随着电信业的发展,语音业务的发展出现增量不增收的局面,数据业务的收益在总收益中的比例迅速上升,而在全球范围内,移动用户也超出了固定用户数,整个电信业的利润中心,逐渐转
基于MEMS技术加工的微机械陀螺具有体积小、重量轻、功耗低、可靠性高等优点,当前在许多领域具有非常广阔的应用前景。然而,在国内由于加工工艺以及接口电路等条件的限制,微
当今社会是信息爆炸的社会,对此,人们早已没有争议。为了能有效地利用呈指数级增长的海量数据,而不至于淹没在信息的海洋中,人们开始对数据挖掘技术进行深入研究,并使之成为
国民经济的长足发展极大程度上促进了国内铁路技术的发展,而铁路技术快速发展的同时带动了信号技术的跨越式进步,大量先进的信号监测设备投入运营;同时也产生了很多的监测数据
现实世界中不起眼的阴影在虚拟世界中能够带给我们许多视觉信息从而大大提高虚拟场景的真实感。阴影生成技术就是一项在虚拟场景中模拟生成阴影的计算机技术。阴影的生成往往
野外作业,不单指一般探测人员野外探矿,地绘,也包括军事上单兵的野外生存,夜间行军等。近几年来,在民用上,一方面由于社会经济的发展,能耗需求与消耗量与日俱增,对矿产资源的