互联网信息采集分析系统的研究及实现

被引量 : 0次 | 上传用户:lynneselina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到基于Web的应用。本文简要介绍了互联网信息采集和数据挖掘实现技术,结合公安机关公共信息网络安全监察部门工作需求,研究互联网信息采集分析系统的设计和实现。该系统通过建立网页资源模型、结合Sipder技术、内容分析技术,引入用户数据项和分析定义编辑器,实现可定制、可视化、通用性较强互联网信息采集系统。能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等从互联网上获取所需信息。支持向量机(Support Vector Machine,简称SVM)是近年来在统计学习理论的基础上发展起来的一种新的模式识别方法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。本文提出的系统的Web数据挖掘是通过使用SVM-light软件包提供文本自动分类功能实现了互联网信息的自动分类。实验证明,该系统具有较高的分类精度和速度,能有效发现我们“关心”的信息。特征(Feature)用于判别哪些信息是与分类任务相关,特征的数量影响分类器的速度,大量的特征会导致很长的训练和分类时间。特征选取(Feature Selection)就是降低输入维度,是文本自动分类的一个重要的预处理环节。特征选取能减少描述文本文档的特征词的数量,提高分类过程的效率。此外,恰当的特征选取还能提高分类器的精度。文本分类的特征选取是基于一种贪婪过滤的方法,通过统计的方法对每个特征进行评估,计算其特征权重。本文详细分析了文档频率DF、信息增益IG、CHI统计和互信息MI等评估函数的优缺点,发现了在通常环境中表现良好的特征选取方法并不适合于Web中文文本分类问题的事实。分析了产生差异的原因,并提出了适合于Web中文文本环境的特征选取方法。该方法有利于提高分类效果和加速分类过程。本研究和实现的重点内容包括:①提出Web网站的通用四层结构模型,并在系统实现;②分析几类Web网站文本的特点和相应的最佳特征选取方法。③提出人工特征选取法,并通过实验进行分析和证明。
其他文献
中国大陆电视娱乐节目普遍存在高收视率,低满意度问题,本文将此问题命名为“伪收视”现象,并对其进行分析。文章由电视节目的创作阶段始,至收视至,逐步分析原因。首先是从电
步进电机是一种将电脉冲信号转换成响应为角位移或线位移的机电元件,在机电一体化等领域里具有广阔的应用前景。步进电动机的性能主要取决于其驱动方法。本文研究并设计了二
新一代吸波隐身材料要求具有吸收强、宽频带、质量轻、厚度薄、功能多、红外微波吸收兼容以及优良的其它综合性能。碳纳米管所具有的独特的力学、电学和磁学性能以及电磁吸波
与扬子陆块南缘东段的浙、皖、赣、湘地区相比,扬子陆块南缘西段桂北地区前泥盆纪地壳演化研究相对薄弱,特别是在元古代-早古生代地层和岩浆岩构造变形的几何学、运动学、动
随着工农业生产的迅速发展,一方面电力系统输电线路电压等级不断提高、电网规模及供电功率不断增大,另一方面大气污染加剧,暴露在污秽条件下的绝缘子表面会沉积污秽,在天气潮湿的
21世纪,林业总的发展趋势是向多目标发展,以保护生态环境为主。林业发展趋势始终是林业发展规划的最重要因素,在新的林业发展趋势下,重新调整制定林业发展规划十分重要。天津
依据焦耳-楞次定律及傅里叶导热定律,建立了恒流激励下电火工品桥带温升的数学模型,得到了药剂不同位置处的温度分布,并给出了发火电流与安全电流的计算方法。利用感度升降法分
2015年的零售业非常震荡,普遍增长缓慢,很多企业在生死线上挣扎,关店成为行业新常态,开店非常稀罕。零售企业的两极分化非常厉害,竞争力强的企业依旧一路高歌,但是容易赚钱的时代已
老年保障是社会保障制度中最重要的组成部分,养老保险制度是大多数国家老年保障的基本形式,其功能就在于保障老年人退休后的基本生活需要。当前,养老保险制度的改革和完善已
部分斜拉桥是近年来发展起来的一种新型概念的桥梁体系,其结构体系多变,具有刚柔相济的结构特点。目前,国内外对其动力性能的研究较少,至于系统性的研究还是空白。研究该新型