基于Web的文本挖掘技术的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:w18asp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何让Internet更好地为人类服务,是未来几年的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注。目前Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的讨论。同时,Web挖掘系统的开发对其研究也将起到很大推进作用。 本文对Web挖掘的有关理论进行了论述,着重讨论了Web文本挖掘系统的结构和技术。本文的主要内容包括:首先,探讨了Web挖掘的有关理论;其次,在研究Web文本挖掘技术的基础上,介绍了一种Web文本挖掘系统的体系结构;再次,具体讨论了Web信息的自动获取的总体设计思想,并对获取信息的预处理工作进行了研究;第四,为了将遗传算法应用到本文设计的算法中,对遗传算法进行了详尽的分析;最后,在对传统的遗传算法进行改进后,提出了一种基于遗传算法的特征提取算法。实验表明,该方法是可行的。
其他文献
随着社会的发展和进步,产生了越来越多的数据,尤其是近几年来Internet的迅速普及和广泛应用,数据呈爆炸式增长.传统的存储系统已经不能满足企业对存储系统高可靠性,可扩展性
20世纪90年代以来,随着互联网以及各项相关技术的日趋成熟,电子商务在社会经济领域得到了广泛的应用.在发达国家,电子商务发展迅速,电子商务推动了商业、贸易、营销、金融、
操作系统安全是计算机系统安全的基础,要保障计算机系统的安全,首先需要一个安全的操作系统,目前流行的Linux操作系统的安全级别比较低,无法满足信息安全的需要。本论文的研究目
基因芯片是获取大规模基因表达数据的崭新技术,运用这种技术可以获得并分析机体组织中成千上万个基因的表达水平及其与疾病的关系。但是,机体组织所具有的部分体积效应,使得对基
数字电视(Digital TV,简称DTV)是一种全新的广播方式和电视技术未来发展的趋势,它的应用和增值业务需要更完善的电子节目指南(Electronic Program Guide,简称EPG)标准。TV-Anyti
该文以项目的形式来组织、控制与管理业务流程,提出项目过程管理的概念,与业务过程相比,项目过程具有一次性执行、以目标为导向以及团队工作等特点.该文借鉴BPM的研究方法,结
本文研究了个性化服务中用户模式的挖掘,分成以下几个子问题并且针对性的研究了相应的解决方案或者算法:(1) 如何解决用户访问的记录以及识别用户身份的问题。研究了利用web日
随着三维模型获取技术的快速发展以及三维模型在CAD、计算机图形学中的广泛应用,点云曲面(Point Cloud Surface)逐渐成为三维模型的主要表示方法之一,点云曲面在逆向工程、动画
静电悬浮无容器技术,是一种十分有效的获取金属材料和非金属材料深过冷现象的手段,其在对熔体过冷度的控制上也相对容易,同时可以测量处于过冷阶段熔体的热物理性质,也可对其
如何利用现有的计算机技术去快速构建一个简单、灵活、可复用的GDSS框架是本文的出发点和追求目标.本文研究了GDSS发展历程,分析了当前GDSS领域中所面临的问题.面对问题,本文