【摘 要】
:
互联网的迅速发展导致Web信息飞速增长,Web已经成为世界上最大的信息来源。由于Web资源的迅速膨胀以及Web信息的分散性与异构性,导致知识的难以查询。目前,互联网已经发展成
论文部分内容阅读
互联网的迅速发展导致Web信息飞速增长,Web已经成为世界上最大的信息来源。由于Web资源的迅速膨胀以及Web信息的分散性与异构性,导致知识的难以查询。目前,互联网已经发展成为拥有亿页面的分布式信息空间,而在这些异质的亿页面的资源中,蕴含着大量的人们迫切需要的知识,如何对这些庞大的Web信息进行知识提取,成为近年来的一个研究方向,并产生了新的研究领域,即Web数据挖掘。Web文本挖掘是Web数据挖掘的一个研究分支,Web文本挖掘可以提高人们获取Web信息的效率,对Web资源进行分门别类,帮助用户快速的对目标知识进行定位,并且能够从中抽取有价值的知识。本文研究并利用Web文本挖掘技术对Web信息进行挖掘,实现对Web文本的分类,详细设计并实现了具备完整功能结构的Web文本挖掘原型系统,重点讨论了当前流行的Web文本挖掘的关键技术,主要的研究工作包括:1.介绍Web文本挖掘的背景知识,分析Web文本挖掘的研究背景和现状,并探讨了Web文本挖掘的意义;2.详细分析和讨论了Web文本挖掘过程的关键技术,包括中文分词技术、权重计算方法、Web文本特征的表示和提取方法;3.讨论了几种常用的Web文本分类和聚类的算法:KNN近邻算法、朴素贝叶斯方法、SOM自组织映射算法、K均值算法,研究了K均值算法和遗传算法的理论和优缺点,在此基础上,提出基于K均值和遗传算法的聚类算法,并对其进行了实验,在挖掘评价方法的基础上,验证该算法的可行性。基于以上的研究成果,本文描述了Web文本挖掘原型系统的设计和实现细节。
其他文献
视频监控技术在安全防范、信息获取和指挥调度等方面有着广泛的应用,提供生产流程控制、大型公共设施安防、医疗监护及远程教育等多种服务。智能视频监控系统,是指使用计算机
由于卫星网络具有全球覆盖、24小时不间断通信等特点,在通信系统领域正发挥着越来越重要的作用。卫星网络具有长时延、高误码率、高时延带宽积等特点,因此,如果将应用于地面
随着互联网的不断发展,网络文本中所包含的有价值的信息越来越多。由于文本中包含各种实体之间关系纷繁复杂,以人工和经验的方式进行相关知识的获取及组织已经远远不能满足应
本文设计了一种基于ZigBee无线射频通信技术的井下搜救机器人自主定位系统,对一群移动搜救机器人进行协作定位。采用对机器人群进行分组的策略,使每次都有一个分组机器人固定
数据通信模块是在PXI主机和用户功能模块间实现数据桥接所必需的接口模块,对它的研究具有很强的实用价值。本课题组提出了一个基于TMS320C6205 DSP开发符合PXI/PCI总线标准的
本文通过对两种互联网核心协议IPv4和IPv6的比较,揭示了IPv4将被IPv6所取代的历史必然性。主要论述了两方面的内容:随着互联网的发展,传统网络层协议IPv4所暴露出来的种种缺
嵌入式Linux操作系统和ARM微处理器的结合成为嵌入式开发的主流。同时,工程扫描仪广泛应用于建筑、测绘、军事、印刷、航天、机械等众多领域。本文主要论述基于嵌入式Linux的
随着信息技术的不断发展,人们已经积累了越来越多的数据。面对这些数据,如何从中找出对生产生活有用的知识已成为数据挖掘、模式识别和机器学习等领域的一个重要研究问题。K-
机会网络作为一种新型的自组织网络,利用节点之间的相遇进行数据传输。机会网络中节点的移动性会导致网络连接不稳定,所以机会网络的路由算法用于解决动态拓扑结构下的数据传
数字景区三维建模包括数据获取、图像分割、图像配准、几何建模、纹理建模等技术,其中数据获取、图像分割和图像配准是三维建模的基础,对建模的效果和质量有着重要的意义。本