中文农业网页去重及相似度判断研究

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户：lingliang416

【摘要】

：

随着网络信息技术的飞速发展，农业信息化的建设、服务水平得到了极大的促进与提高。互联网中海量、重复的农业信息为从事农业领域的朋友们带来方便的同时，也增加了快速、准确获

【作者】

：

赵涛

【机构】

：

新疆农业大学

【出处】

：

新疆农业大学

【发表日期】

：

2014年期

【关键词】

：

中文农业网页 MD5 特征加权向量空间模型知网潜在语义分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络信息技术的飞速发展，农业信息化的建设、服务水平得到了极大的促进与提高。互联网中海量、重复的农业信息为从事农业领域的朋友们带来方便的同时，也增加了快速、准确获取有效信息的难度。如何对农业网页中重复以及近似重复的网页进行有效的管理，成为农业垂直搜索引擎领域研究的重要课题之一。本文的工作主要包括以下几个方面：1）深入研究了文本去重及相似度判断的关键技术，网页预处理、网页正文内容提取、中文分词、特征加权算法、网页去重方法、文本相似度计算方法以及相似度评价标准技术，以农业网页语料库为基础，重点研究了网页去重技术、特征加权算法以及相似度计算的方法。2）对中文农业网页中重复及近似重复的网页的定义标准进行研究，构建出中文农业网页语料库。建立一个由人工鉴别出的网页集合，包含225组网页集，每组网页集中有2至14张近似重复网页，共1110篇网页作为网页测试集。3）首先对网页进行预处理，使用MD5方法去除网页集合中完全相同的网页，再对其余网页提取出正文内容，利用庖丁解牛分词方法进行分词、去除停用词后，分别使用布尔权重、词频权重、词频倒文档权重三种方法对特征词进行加权计算；最后分别使用三种相似度算法（向量空间模型、基于《知网》的语义相似度、潜在语义分析）对三种不同权重的特征向量空间模型进行了相似度计算，最终得到9组中文农业网页相似度判断结果。4）分析比较了9组实验的准确率、召回率、F1测度。结果表明，没有哪种特征加权算法对相似度判断有绝对的优势，三种特征加权算法在不同的相似度判断中各有优劣。不同相似度判断方法分析对比表明潜在语义分析相似度判断结果最好。通过MD5方法去除了41篇与其它网页完全重复的网页，对剩余1069篇网页使用不同的相似度判断方法结合权重计算对农业网页去重及相似度判断进行了深入研究。通过实验结果的分析与对比，结果表明潜在语义分析结合布尔权重值获得的结果，对农业网页相似度判断有最好的结果，综合评价F1测度为90.1%，且准确率达到了93.7%。

其他文献

微机调速器常见故障的分析与处理

本文介绍水电站微机调速器常见故障分析与处理.针对数字阀PCC可编程智能调速器(YZFT-1800/3000F-16.0(外置接力器))常见故障,介绍如何在最短的时间内排查故障,确保调速器安全

期刊

微机调速器接力器电磁阀

果树仿形喷雾机理及其关键技术

中国是世界水果生产大国,水果业作为经济作物产业,它的发展水平直接影响到中国农村经济发展和农民增收,而果园中农药的喷施作业是控制有害生物的重要手段.当前中国的农药喷施

学位

喷雾果树自校正模糊控制器单片机仿形喷雾技术

高载小幅载荷下管线钢裂纹扩展规律研究

实际服役管线的力学环境是在管线防腐层剥落处,局部土壤介质中由输送压力所形成的大载荷上叠加因应力缓慢波动引起的小幅循环载荷.管线在此高载小幅载荷下会产生腐蚀疲劳.基

学位

高载小幅载荷腐蚀疲劳裂纹扩展模拟土壤介质模型X70管线钢

扑朔迷离的冷核聚变

期刊

含无水硫铝酸钙低钙水泥：矿物结构、水化过程及产物结构

学位

基于改进模糊综合评判理论的水闸安全性评价

我国是世界上兴修水利最早、拥有水利设施数量最多的国家之一,这些水利工程为国民经济和社会稳定发展发挥了巨大的作用,但大量工程修建于解放初期五、六十年代,运用时间较长,

学位

水闸安全鉴定权重模糊模式识别模糊综合评判

金属掺杂类金刚石薄膜的结构、应力演变机制研究及电学特性探索

类金刚石(DLC)薄膜是一类无定形碳材料的统称，主要是由金刚石结构(C-Csp3键)以及石墨结构（C-C sp2键）组成，具有许多优良特性，例如高硬度、低摩擦、耐磨损、良好的耐蚀性、光学透过

学位

非晶半导体材料类金刚石薄膜金属掺杂制备工艺电学特性

基于氧化锌、四氧化三铁以及金纳米颗粒的多功能诊疗体系的研究

随着纳米技术的飞速发展,传统的单一功能载体在很多情况下已经无法满足临床的需求。多功能纳米药物的诞生,很好地解决了这一问题。通过将多种模式的治疗或者诊断功能融合在单

学位

氧化锌壳聚糖纳米微球量子点磁共振成像四氧化三铁金纳米颗粒肝癌

GH4169镍基高温合金强流脉冲电子束表面改性研究

本文选择“Nadezhda-2”型强流脉冲电子束(HCPEB)作为本课题的试验装置，并利用该装置对GH4169镍基高温合金进行了表面处理。利用光学显微镜(OM)、X射线衍射仪(XRD)、扫描电子

学位

镍基高温合金强流脉冲电子束表面改性微观结构高温抗氧化性能

引线框架用Cu-Ni-Si合金组织与性能研究

该文在研究Cu-Ni-Si系合金的合金化原理基础上,对此类合金进行了化学成分设计,研制成功了两种Cu-Ni-Si系列引线框架用铜合金,化学成分分别为Cu-3.2﹪Ni-0.75﹪Si-0.3﹪Zn、Cu-1.0﹪Ni

学位

引线框架Cu-Ni-Si合金冷变形显微硬度导电率

中文农业网页去重及相似度判断研究

与本文相关的学术论文