Web日志聚类分析及应用

被引量 : 0次 | 上传用户:cxg2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的发展,特别是WWW技术的兴起,使得人们对于信息的获取更加的快捷和方便。但是这些新技术的使用同时也带来不少弊端,比如大家在浏览网页时,发现很难直接找到自己需要的信息,而是相反的好像淹没在这海量的信息之中。 数据挖掘的提出在很大程度上解决此问题。本文对于数据挖掘的定义、数据挖掘的任务、数据挖掘中的对象、数据挖掘的分析方法都做了很详尽的论述。数据挖掘最初主要使用在数据库上。但数据挖掘的对象并不局限于数据库,现在人们已经将数据挖掘的知识应用到了Web领域上,用来从网络信息当中挖掘出潜在的、有用的模式来。基于Web的挖掘又分为三类,对日志的挖掘是属于其中的使用挖掘。作为记录了人们访问情况的网络日志特别是服务器日志,因为其有着固定的结构,更容易进行挖掘,而受到研究者的青睐。 本文就是在基于聚类的基础上探讨了日志挖掘中的各种问题。首先从理论的角度对聚类领域进行了较为全面的探讨,分析了聚类的基本模型,聚类中常见算法,聚类的有效性衡量的方法,然后结合了日志的具体的特点,阐述了在日志挖掘对于聚类分析的特殊的要求。根据文献中已有的知识总结了日志挖掘的基本模型,详细的阐述了日志挖掘中的每一个阶段的内容及在日志挖掘中的地位。特别对于日志的预处理中的问题,提出了日志的“脏数据”和“噪声数据”两个概念,并且对这两个概念进行了详细的阐述并做了比较。这两个概念的提出使得日志挖掘模型的步骤更加的清晰可行。 我们知道任何理论的最终目的都是应用于实践,日志挖掘也不例外。我们将日志挖掘得到的知识应用在了网页推荐上。在这一环节中,我们提出了自己的打分函数。新的打分函数综合考虑了多种因素对于用户未来访问的影响,充分利用了我们上一阶段日志挖掘中得到的知识。最后,我们提出了具体LogDiscover日志挖掘的模型,将我们提出的这些理论应用在具体的模型中。通过LogDiscover在真实日志中的表现,特别是得出的各种数据进一步的证明了我们提出的各种想法的可行性和有效性。
其他文献
随着城市经济的快速发展和机动车拥有量的迅猛增加,目前许多大中城市都存在严重的停车难问题。本文在对前人研究结果分析总结的基础上,围绕停车系统供需平衡对停车问题进行研究
辛弃疾词中大量的“风雨”意象是作者特殊心境、情感的体现,“风雨”实践了词人对苦难的多重消解与超越,展示了词人情感发展的不凡历程
在保险业全面开放的新竞争形势下,“开放”两字已展示出更加纵深的含义:对内,民营资本蜂拥而入;对外,卸掉禁锢的外资保险开始新一轮的跑马圈地;行业外,商业银行越界渗入;行业内,多家保
本文针对《中华人民共和国招标投标法》中“投标人不得以低于成本的报价竞标”的规定,对其研究现状做了分析,认为现行的判断方法都存在一定的问题,因此需要对此进行研究。 论
本文通过实验对比了逻辑回归、决策树、人工神经网络和支持向量机等方法在分析抽检数据中的表现。结果表明,支持向量机的预测准确率最高。该方法及相应软件系统能够为未来的
随着西部大开发战略和交通部“村村通公路”工程的实施,在全面展开的西部公路特别是市县级公路建设高潮中,水泥混凝土路面将得到更加迅猛的发展。开展道路水泥混凝土混合料组成
近代民法意义上的惩罚性赔偿制度于200多年前在英美法中被确立以来,反对和支持相互交织,惩罚性赔偿成为英美法中最具有争议的问题之一。但是,不可否认的是,惩罚性赔偿已成为英美
国内外传统的饲料酵母生产工艺是深层发酵(液体生产法),由于投资规模大,技术复杂,能源消耗大,在我国一直未能得到大规模发展。固体发酵法是最近国内普遍采用的方法。虽然设备投资
在P2P网贷行业迅速发展的同时,问题平台的数目也不断增多。本文通过比较正常平台和问题平台的经营信息,研究能够成功区分两类平台的指标和模型。结果发现:在14个经营指标中,
在市场经济条件下,市场竞争的一个主要内容就是价格竞争。加强成本管理、降低成本是企业提高经济效益增强市场竞争力的重要手段,也是深化企业改革,转变企业经营机制、建立现代企