【摘 要】
:
数据挖掘就是从大量数据中提取信息或“挖掘”知识的过程,获取的信息和知识可以广泛用于各种应用。在数据挖掘的实现过程中,聚类是普遍采用的方法之一,聚类分析已经成为数据
论文部分内容阅读
数据挖掘就是从大量数据中提取信息或“挖掘”知识的过程,获取的信息和知识可以广泛用于各种应用。在数据挖掘的实现过程中,聚类是普遍采用的方法之一,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。将聚类分析应用于Web服务器日志的挖掘,可以从记录了用户在站点上浏览行为的日志中提取用户的访问模式,如页面访问频度、用户聚类等。这些知识有助于网站设计者优化站点拓扑结构,提供个性化、智能化服务以及提高网站的性能。本文从对聚类分析基本算法的研究出发,在分析和实现层次聚类算法、k-means聚类算法以及模糊C-均值聚类算法的基础上,从聚类个数和聚类中心两个方面进行算法的改进,通过实验进行了改进后算法的有效性说明,并将改进后的算法应用于东华大学精品课程网站的日志挖掘中,取得了良好的分析效果。论文的主要工作如下:1)在分析和实现基本聚类算法的基础上,利用标准数据集进行了基本算法的比较说明,并对层次聚类算法、k-means聚类算法以及模糊C-均值聚类算法的聚类结果进行了比较。2)针对聚类算法中的初始聚类中心和聚类个数进行优化设计,改进了相应的算法,分析了模糊C-均值聚类算法的聚类个数估计方法以及皮尔逊相关系数距离度量方法,并进一步提出了一种基于粗糙集的改进的模糊C-均值聚类算法,随后实现了改进后的优化算法,并通过实验分析与传统聚类模糊C-均值聚类算法进行对比,比较改进算法与传统算法的聚类效果,说明了算法的有效性。3)将改进后的算法应用于Web日志挖掘,进行聚类结果的分析和研究,并在东华大学精品课程网站的Web日志数据上应用改进的聚类算法进行日志的分析研究,发现用户对网站页面访问的行为特点,给出网站的优化改进建议。
其他文献
<正>左心室附壁血栓是急性心肌梗塞后的常见的继发症.尸检证明,在急性心肌梗塞死亡病例中,附壁血栓的发生率为30~40%,患前壁有Q波急性心肌梗塞并伴发室壁瘤的死亡病例,其附壁
“文化大革命”是中华人民共和国一段非常特殊的历史时期。历史不应该被遗忘。本文以“文革”时期的社会生活状况为研究对象,着重对这一时期个人崇拜的特殊信仰习俗、人们的
2019年,江苏省苏州市共建设涉及社会治理、公共服务和经济运行等领域的大数据和电子政务应用项目320个,数字赋能城市治理的场景已渗透到百姓生活的方方面面。动动手指就能在
近日,中央经济工作会议在提及三大攻坚战时,将重中之重的脱贫攻坚战放置首位,并明确要求要集中兵力打好深度贫困歼灭战。我国已经步入全面建成小康社会与“十三五”规划的收
民营企业已经是国民经济发展中的重要力量,但在经济市场中做大做强的民营企业在金融市场中尚未取得与之匹配的地位,突出表现之一就是民营企业在市场上的融资困难。民营经济作
目的:评价观察血塞通注射液治疗冠心病不稳定型心绞痛临床辨病与辩证的用药规律。方法:从成都中药大学附属医院心血管内科住院部收集94例符合冠心病不稳定型心绞痛诊断标准的患
<正>急性冠状动脉闭塞后,缺血坏死的心肌细胞有多种酶类释出,其大部分在局部和转移途中被破坏,部分酶(约占释出量的15~30%)则经过心脏淋巴系统注入静脉血流.由于心肌细胞合酶
随着大规模敏感电力电子器件在现代电力系统中的应用,电力部门和电力用户近年来关注的电能质量问题不仅仅是传统的谐波、电压三相不平衡、电压波动等稳态电能质量问题。对短
高速光纤通信系统中自适应的偏振控制器是一个不可或缺的重要器件。对于传输速率40Gb/s以上的光纤通信系统,由偏振引起的相关损害越来越敏感,严重影响通信质量,已经成为了光
目的探讨重叠使用低分子肝素和华法林抗凝以及单独使用华法林抗凝时便携式凝血仪检测国际标准化比值(INR)的应用。方法对于重叠使用低分子肝素和华法林抗凝以及单独使用华法