论文部分内容阅读
Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到基于Web的应用。本文简要介绍了互联网信息采集和数据挖掘实现技术,结合公安机关公共信息网络安全监察部门工作需求,研究互联网信息采集分析系统的设计和实现。该系统通过建立网页资源模型、结合Sipder技术、内容分析技术,引入用户数据项和分析定义编辑器,实现可定制、可视化、通用性较强互联网信息采集系统。能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等从互联网上获取所需信息。支持向量机(Support Vector Machine,简称SVM)是近年来在统计学习理论的基础上发展起来的一种新的模式识别方法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。本文提出的系统的Web数据挖掘是通过使用SVM-light软件包提供文本自动分类功能实现了互联网信息的自动分类。实验证明,该系统具有较高的分类精度和速度,能有效发现我们“关心”的信息。特征(Feature)用于判别哪些信息是与分类任务相关,特征的数量影响分类器的速度,大量的特征会导致很长的训练和分类时间。特征选取(Feature Selection)就是降低输入维度,是文本自动分类的一个重要的预处理环节。特征选取能减少描述文本文档的特征词的数量,提高分类过程的效率。此外,恰当的特征选取还能提高分类器的精度。文本分类的特征选取是基于一种贪婪过滤的方法,通过统计的方法对每个特征进行评估,计算其特征权重。本文详细分析了文档频率DF、信息增益IG、CHI统计和互信息MI等评估函数的优缺点,发现了在通常环境中表现良好的特征选取方法并不适合于Web中文文本分类问题的事实。分析了产生差异的原因,并提出了适合于Web中文文本环境的特征选取方法。该方法有利于提高分类效果和加速分类过程。本研究和实现的重点内容包括:①提出Web网站的通用四层结构模型,并在系统实现;②分析几类Web网站文本的特点和相应的最佳特征选取方法。③提出人工特征选取法,并通过实验进行分析和证明。