【摘 要】
:
本文分析了对产品质量、食品安全方面的质检舆情监控的意义和必要性,介绍了垂直搜索、信息抽取、中文分词、文本相似度、文本聚类、信息检索等方面的技术现状。研究了信息检
论文部分内容阅读
本文分析了对产品质量、食品安全方面的质检舆情监控的意义和必要性,介绍了垂直搜索、信息抽取、中文分词、文本相似度、文本聚类、信息检索等方面的技术现状。研究了信息检索系统中的信息检索优化处理、信息检索接口的设计与实现。论文完成的主要工作如下:(1)完成了系统的总体架构设计以及网页去重、聚类优化、信息检索以及统计报表等功能模块的设计,完成了相关数据库的设计。(2)通过引入词语共现,改进了文本相似度的算法,实现了文本相似度的计算,并将其应用到了信息检索的优化处理中。(3)将重复网页分为完全重复网页和部分重复网页,并采用不同的算法进行判断,实现了信息检索中的网页去重功能。针对完全重复网页采用运行速度快的MD5校验码进行判重,而针对部分重复网页采用倒排索引计算相似度的方法实现了判重。(4)通过对基本的k-means算法进行改进,实现了文本聚类。通过聚类结果对信息检索结果进行了优化。实现了信息检索系统的用户接口,包括检索接口和统计报表接口,可向用户高效、直观地展示检索结果。本文通过计算文本相似度、网页去重和聚类优化实现了对信息检索的优化处理,然后通过检索接口和统计报表接口将结果呈现给用户,可以及时向用户提供质检舆情监控系统所采集到的相关内容,有助于政府相关部门对产品质量、食品安全方面的信息进行监督管理。
其他文献
随着我国航天事业的发展,型号种类推陈出新,其软件规模越来越大,作用也日益增强,逐渐成为型号项目的控制中枢,而且软件质量成为影响整个航天项目成败的关键环节。在这种背景下软件
随着社会信息化的不断深入,软件的应用领域不断拓展,软件系统复杂程度不断增加,许多现有的软件需要不断升级维护以适应新的应用的需求,从而对软件维护以及开发的效率提出了更高的
面向服务提供的新型网络技术体系是未来互联网发展的可行思路,实现面向服务提供的新型网络技术体系的关键是研究开放式可重构路由交换节点技术。本论文研究和实现的可重构路
随着Internet的迅猛发展和国家信息化建设的不断推进,在国防科技信息领域,汇集了种类繁多的信息资源,怎样对这些资源进行组织,怎样为广大国防科技管理和科研人员提供有效的信息资
随着计算机技术的日趋普及,软件应用的范围逐步扩大,软件的规模也随之扩大,因此软件的质量问题越来越重要。软件测试是软件质量保证的重要方法,静态测试是软件测试的一个重要
本篇论文首先从IPv4地址即将枯竭这一课题背景出发分析了IPv6出现目的以及IPv6相对于IPv4的优势;然后介绍了现有主流的IPv6过渡技术,列举了具有代表性的过渡技术的工作原理与
片上网络是解决大规模片上多处理器系统中片上通信问题的有效途径。与基于总线的方式相比,片上网络使用网络互连的方式进行通信,这有效的降低了通信功耗、缓解了带宽争夺、提
作为第三代的网络安全机制,入侵容忍系统受到越来越多的关注。随着技术上的突破,很多入侵容忍系统相继诞生,入侵容忍技术也日渐成熟。面对众多的入侵容忍系统的出现,如何判定
XML语言是W3C提出的一个Web上数据表示和数据交换的标准,XML文档在Web上的广泛应用使得基于XML文档的数据查询显得尤其重要。目前XML的标准查询语言XQuery不能满足用户提出的
随着智能手机和移动互联网的进步,移动平台上的恶意软件和病毒也在不断发展。据统计,手机安全公司网秦仅在2010年就截获了1700多个手机病毒,相比去年增长了193%。如何提高手