中文农业网页去重及相似度判断研究

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户:lingliang416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的飞速发展,农业信息化的建设、服务水平得到了极大的促进与提高。互联网中海量、重复的农业信息为从事农业领域的朋友们带来方便的同时,也增加了快速、准确获取有效信息的难度。如何对农业网页中重复以及近似重复的网页进行有效的管理,成为农业垂直搜索引擎领域研究的重要课题之一。本文的工作主要包括以下几个方面:1)深入研究了文本去重及相似度判断的关键技术,网页预处理、网页正文内容提取、中文分词、特征加权算法、网页去重方法、文本相似度计算方法以及相似度评价标准技术,以农业网页语料库为基础,重点研究了网页去重技术、特征加权算法以及相似度计算的方法。2)对中文农业网页中重复及近似重复的网页的定义标准进行研究,构建出中文农业网页语料库。建立一个由人工鉴别出的网页集合,包含225组网页集,每组网页集中有2至14张近似重复网页,共1110篇网页作为网页测试集。3)首先对网页进行预处理,使用MD5方法去除网页集合中完全相同的网页,再对其余网页提取出正文内容,利用庖丁解牛分词方法进行分词、去除停用词后,分别使用布尔权重、词频权重、词频倒文档权重三种方法对特征词进行加权计算;最后分别使用三种相似度算法(向量空间模型、基于《知网》的语义相似度、潜在语义分析)对三种不同权重的特征向量空间模型进行了相似度计算,最终得到9组中文农业网页相似度判断结果。4)分析比较了9组实验的准确率、召回率、F1测度。结果表明,没有哪种特征加权算法对相似度判断有绝对的优势,三种特征加权算法在不同的相似度判断中各有优劣。不同相似度判断方法分析对比表明潜在语义分析相似度判断结果最好。通过MD5方法去除了41篇与其它网页完全重复的网页,对剩余1069篇网页使用不同的相似度判断方法结合权重计算对农业网页去重及相似度判断进行了深入研究。通过实验结果的分析与对比,结果表明潜在语义分析结合布尔权重值获得的结果,对农业网页相似度判断有最好的结果,综合评价F1测度为90.1%,且准确率达到了93.7%。
其他文献
本文介绍水电站微机调速器常见故障分析与处理.针对数字阀PCC可编程智能调速器(YZFT-1800/3000F-16.0(外置接力器))常见故障,介绍如何在最短的时间内排查故障,确保调速器安全
中国是世界水果生产大国,水果业作为经济作物产业,它的发展水平直接影响到中国农村经济发展和农民增收,而果园中农药的喷施作业是控制有害生物的重要手段.当前中国的农药喷施
实际服役管线的力学环境是在管线防腐层剥落处,局部土壤介质中由输送压力所形成的大载荷上叠加因应力缓慢波动引起的小幅循环载荷.管线在此高载小幅载荷下会产生腐蚀疲劳.基
期刊
学位
我国是世界上兴修水利最早、拥有水利设施数量最多的国家之一,这些水利工程为国民经济和社会稳定发展发挥了巨大的作用,但大量工程修建于解放初期五、六十年代,运用时间较长,
类金刚石(DLC)薄膜是一类无定形碳材料的统称,主要是由金刚石结构(C-Csp3键)以及石墨结构(C-C sp2键)组成,具有许多优良特性,例如高硬度、低摩擦、耐磨损、良好的耐蚀性、光学透过
随着纳米技术的飞速发展,传统的单一功能载体在很多情况下已经无法满足临床的需求。多功能纳米药物的诞生,很好地解决了这一问题。通过将多种模式的治疗或者诊断功能融合在单
本文选择“Nadezhda-2”型强流脉冲电子束(HCPEB)作为本课题的试验装置,并利用该装置对GH4169镍基高温合金进行了表面处理。利用光学显微镜(OM)、X射线衍射仪(XRD)、扫描电子
该文在研究Cu-Ni-Si系合金的合金化原理基础上,对此类合金进行了化学成分设计,研制成功了两种Cu-Ni-Si系列引线框架用铜合金,化学成分分别为Cu-3.2﹪Ni-0.75﹪Si-0.3﹪Zn、Cu-1.0﹪Ni