【摘 要】
:
数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种新的信息技术,它融合了数据库、人工智能以及统计学等多种学科,试图从数据库中提取出先前未知、有效和实用
论文部分内容阅读
数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种新的信息技术,它融合了数据库、人工智能以及统计学等多种学科,试图从数据库中提取出先前未知、有效和实用的知识。Web数据挖掘是传统数据挖掘技术在Web环境下的应用,是从Web上的数据(如Web日志、页面内容等)中发现用户的浏览模式或寻找相关的Web页面等。Web使用挖掘主要是对于Web日志数据进行分析处理。而Web日志数据通常是大量的,冗余的,日志中的页面之间的关系也是模糊的,不确定的。粗糙集理论是有效处理不精确、不确定和含糊信息的软计算工具,模糊聚类分析是依据客观事务间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事务进行分类的方法。Web使用挖掘可以从网站的日志数据中抽取用户感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构,为用户提供个性化服务。所以本文提出的粗糙集理论和聚类算法在Web使用上的挖掘研究是具有一定的理论意义和现实意义的。 论文首先介绍了数据挖掘和Web数据挖掘的基本理论和方法;其次介绍了粗糙集理论和模糊聚类算法;再结合具体Web日志数据提出了Web使用挖掘的方法及Web日志数据模型,并建立了基于模糊聚类算法的页面用户聚类的一般模型。在第五章中进一步利用上述理论对Web日志数据进行预处理,并利用粗集理论对预处理结果中的教务网页面约简,得到在不影响问题分析基础上的有效页面。最后利用模糊等价关系矩阵和图的模糊聚类方法,在上述数据处理的基础上对其进行了进一步的分析研究。论文利用Java语言结合教务网数据源实现了算法编程。
其他文献
近几年,商业地产逐渐成为房地产开发商、投资者和经营者追逐的热点。然而随着开发热潮的到来,商业地产也伴随出现了许多问题。在新兴商业物业不断涌现的同时,商业物业空置率
“预设”问题一直是语用学研究的中心课题之一,在不同分析视角的观照下,主要分为语义预设和语用预设两大类型。就语用预设而言,“双方共知性”和“语境适应性”作为其两大特
统一兰州分公司是一家在甘肃省市场销售统一系列食品的销售型企业,经过几年的不懈努力,统一系列方便面的销量位居甘肃省市场第二位。但是随着竞争对手的实力日趋强大,竞争局面日
时尚,是服装设计的一个重要审美纬度。中国作为一个服装生产大国,以体现中国特色的时尚服装来参与竞争已是迫在眉睫。中国传统造型艺术具有深厚的文化底蕴和广阔的再创造空间
针对现有雷达信号特征描述方式很难有效地对复杂雷达辐射源进行描述和识别,提出一种基于脉冲样本图和Vague集的雷达辐射源识别新方法。该方法把雷达辐射源识别问题转换为Vagu
本文从民族社会学的视角出发,着力探讨甘青宁回族女性传统文化研究中所涉及的诸多层面,并运用田野调查和个案研究方法,对甘青宁回族女性传统社会文化的变迁进行探讨与反思,深
<正>2013年以来,会计领域有三件事情值得关注:一是财政部长楼继伟在一次总结我国会计改革成果的讲话时,曾"独具慧眼"地指出:"管理会计是我国会计发展的短板"。楼部长的讲话在
中医药的辨证论治为近年来临床上治疗慢性功能性便秘的主要方法之一,由于其疗效显著,无毒、副作用,临床上被广泛应用。但目前对这方面的报道主要集中在临床疗效方面,缺乏作用
随着人口的急剧膨胀和工农业的迅速发展,大量生活污水和工农业废水所引起的水体富营养化已引起人们的普遍关注,而水体物理—生态修复技术是目前一条创新的治理技术路线。许多
目的:从体内体外实验共同着手,探讨祛痰剂小陷胸汤对非小细胞肺癌的抑制作用。方法:采用细胞增殖抑制、侵袭和转移以及细胞周期分析等进行体外研究。裸鼠异体移植A549肿瘤模