面向web文本挖掘的主题搜索技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jonasen128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的快速发展,海量的Web数据资源已经成为人们获取知识与信息的重要来源。由于Web资源具有半结构性、离散性、实时性和异构性等特点,用户很难快速准确地从Web上获取真正有价值的信息。获取Web信息的主要方法是使用搜索引擎,而现在流行的通用搜索引擎不能很好的提供信息结构抽取、Web文本内容的分类、过滤以及文档理解方面的功能。因此,如何设计搜索引擎技术,使之更适应的对Web资源进行高效的挖掘就成为了研究热点。本论文的研究内容是面向Web文本挖掘的主题搜索引擎研究与系统设计。重点讨论了当前流行的Web挖掘以及搜索引擎的核心技术,并且设计和实现主题Web信息挖掘和搜索原型系统Label3。本文的主要工作研究如下:主题爬虫技术:改进了以往的爬虫策略,提出了基于非贪婪遗传算法的网络爬虫搜索策略,对各个算法进行数据分析和性能比较。语言过滤分词、中文字词切分算法:考虑到拉丁语言与中文语言的差异,本文讨论了各自的语言分词算法,特别针对中文语言的特殊性,提出了基于字典的“词元”分词算法。Web数据的挖掘算法:主要是对采集到的Web数据,进行数据聚类分类,发现数据的内在联系,并且提取文本的类别信息,为用户提供更好的信息服务。数据索引和检索机制:数据索引机制采用独特的倒排序策略来建立数据索引,对获取的文本信息进行细化。信息查询检索服务针对不同类别网页分类查询,使用户的得到的搜索结果更加精确。针对以上研究成果,本文描述了原型系统的设计实现细节。
其他文献
本文针对现有的共享最近邻聚类算法,提出一种新型的基于共享最近邻的聚类算法,并将改进后的算法应用到真实数据集和零件的组合过程中。通过聚类结果和实验仿真表明,本文提出的共
随着Internet的快速发展,XML作为Internet上数据表示和数据交换的新标准,已经迅速贯穿于Internet应用的各个领域之中。然而,面对大量的xml文档,如何对它们进行存储、查询和分
跨层优化技术是针对无线网络的一种新的优化网络结构及传输性能的技术。与传统的分层优化技术不同,它不是针对开放系统互连(OSI)分层结构中某一特定的层来独立地进行优化,而
随着IEEE 802.11无线局域网技术的广泛应用,用户对网络功能和性能的要求也越来越高,其中一个非常迫切的要求就是对多媒体业务提供服务质量(Quality of Service,QoS)的支持。
软件复用被视为解决软件危机、提高软件生产效率和质量的有效途径。目前对于软件复用的研究已经得到了越来越多的重视。本文以软件复用作为指导思想,研究并实现了软件企业可
无线传感器网络是集无线通信、数据采集和信息处理功能于一体的新型分布式自组织数据采集网络。它充分利用了Ad Hoc网络动态自组、多跳的特点,其通信和感知节点可以移动、无
蓝牙技术是一种无线数据与语音通信的开放性规范,它以近距离无线连接为基础,即时地将个人电子设备组成自组织网。由于低功耗,低成本,高安全性等突出优点,蓝牙正成为个人区域
随着Internet的迅速发展,信息爆炸问题也随之产生。由于Internet的开放性、动态性使得用户很难快速、准确的从网上获取所需的信息。因此如何有效的从网络上获取有价值的信息
现代企业的业务已经逐步趋向国际化、分布式化,传统的C/S结构应用已不能满足现代企业的业务需求。Web作为分布式技术的基础,已经成为各类应用开发运行的默认平台,基于Web的应
图像融合技术,主要是根据多传感器对同一目标场景获得的图像,采用合适的融合处理算法,获得对该目标物更为清晰的描述。其在医疗图像、军事技术、目标检测系统、遥感图像等领