论文部分内容阅读
如何让Internet更好地为人类服务,是未来几年的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注。目前Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的讨论。同时,Web挖掘系统的开发对其研究也将起到很大推进作用。 本文对Web挖掘的有关理论进行了论述,着重讨论了Web文本挖掘系统的结构和技术。本文的主要内容包括:首先,探讨了Web挖掘的有关理论;其次,在研究Web文本挖掘技术的基础上,介绍了一种Web文本挖掘系统的体系结构;再次,具体讨论了Web信息的自动获取的总体设计思想,并对获取信息的预处理工作进行了研究;第四,为了将遗传算法应用到本文设计的算法中,对遗传算法进行了详尽的分析;最后,在对传统的遗传算法进行改进后,提出了一种基于遗传算法的特征提取算法。实验表明,该方法是可行的。