【摘 要】
:
数据挖掘是从大量数据中提取或“挖掘”知识。目前关于数据挖掘的研究工作,大多着眼于数据挖掘算法的探讨而忽视了对数据处理的研究。成熟的算法要求良好的数据(完整性好、冗
论文部分内容阅读
数据挖掘是从大量数据中提取或“挖掘”知识。目前关于数据挖掘的研究工作,大多着眼于数据挖掘算法的探讨而忽视了对数据处理的研究。成熟的算法要求良好的数据(完整性好、冗余少、属性间的相关性小)。实际应用中清理前的数据很难满足算法的要求。其中大量的无意义的数据影响了挖掘效率,噪声干扰了算法的精度。数据预处理已经成为数据挖掘系统实现过程中的关键问题。本文围绕两个主题:数据仓库质量控制之ETL和主题网站质量控制框架,将数据预处理方法应用其中,主要做了下列工作。1 研究了ETL设计与实现技术中的难点,给出了搭建ETL过程的体系结构。2 研究了DBMS中单数据源、多数据源以及schema级、instance级出现的数据问题,并给予解决方法。3 以企业DW项目为背景,在RS6000上基于AIX编写shell脚本实现了单数据源的抽取、转换和装载,装载平台为DB2。4 探索了主题网站实时过滤非主题文本信息技术。自行设计了一个文本预处理可扩展框架:两可选模型(VSM和LM)、质量控制三阶段算法。5 分析了框架中主要的数据预处理功能模块:分词、语言分析、模型建立、特征提取。并针对主题网站信息源Text Stream的特点,从实时过滤角度出发,<WP=3>提出了两个可选的新颖方案:(1)基于相似度的高速匹配方案,改进MC法,配以逻辑阈值,让网站文本根据匹配的模板进行快速过滤,其中,在线文本预处理、高效模板更新、内存需求小都是该方案的可取之处。(2)基于SVM的增量训练方案,SVM理论完备,分类效果出众,在它基础上构造一种新的增量训练算法用于主题网站实时分类(主题与非主题),实验结果良好。
其他文献
厦门轨道交通1号线软件园站1#办公楼为35层,房屋高度为141.9米,存在结构高度超限、扭转不规则、楼板不连续、连层柱等问题,采用抗震性能良好的型钢混凝土框架柱-钢筋混凝土核
<正>《语文课程标准》指出:"语文课程评价目的是为了考察学生实现课程目标的程度,检验和改进学生的学习和教师的教学,改善课程设计,完善教学过程……有效地促进学生的发展。"
在钢结构中一个比较重要的施工工艺就是焊接技术,焊接关系到结构的安全性能和工程质量的好坏。焊接时产生的残余应力是由于高度集中的热输入导致的,正因为残余应力会影响到工
中国山水田园诗和中国自然式山水园林是不同的艺术表现形式,是中国文化这同一枝干上的两朵奇葩,二者相互影响,形成了各自独特的艺术风格和特点。
为了解大果番茄种质资源的遗传多样性和聚类关系,对收集到的49份大果番茄资源的果形、果色、单果重等13个相关性状进行评价分析。遗传多样性分析结果表明,49份材料之间存在着
本试验以木霉菌(Trichoderma spp.)为生防筛选材料,针对茄腐皮镰刀菌(Fusarium solani),通过对峙培养、难挥发性代谢产物的拮抗试验以及6种杀菌剂对病原菌的毒力测定,为川芎
信息技术的发展极大地促进了农业机械管理的发展,实现了传统农业机械管理向微型化、多样化、智能化、信息化模式的转变,提大地提升了农业机械管理水平,实现了农业产业结构的
会计信息的披露是确保建立公开、公正、公平证券市场的重要条件,是构筑证券市场的基石。但其前提是上市公司必须诚信,披露的会计信息是真实可信的,而非虚假的。然而各方的评价表
桔梗是一种多年生的草本植物,是一种药食两用的常见药材,桔梗主要成分包括:皂苷类化合物、黄酮类化合物、酚类化合物、多糖类化合物等。其功效主要包括增强机体免疫、抗氧化
近年来,有关客户关系管理(CRM)的研究受到了学术界和企业界越来越多的关注。CRM是企业在信息经济时代提升企业竞争能力,实现并提高企业价值的必然要求。它既是一种管理理念,又是