基于关联规则的WEB使用挖掘及其在电子商务中的应用研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:garnettxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于应用性数据的爆炸式增长(如商业分析),及计算机的软硬件技术的发展日趋完备,近几年来数据挖掘已经成为应用最广泛的数据分析工具。数据挖掘需要配合许多其它领域的技术才能得到完善有效的结果,其中包括机器学习,人工智能,统计学原理,数据库系统,数据可视化等。如何对Web上的海量信息进行复杂的应用,解决数据的应用质量问题,充分利用有用的数据,是当今数据挖掘技术的重要的应用。本文在总结前人的研究成果的基础上,针对Web使用挖掘进行了研究,主要内容归纳如下:   (1)网站用户的浏览行为不确定性导致根据现有的从Web日志文件挖掘出的事务模式来预测用户行为越来越困难,并且随着决策支持系统(DDS)的出现和Web使用挖掘技术的发展,数据挖掘的主要研究重心不仅仅局限在算法的研究上,挖掘数据源渐渐成为研究的焦点。因此本文引入一种新的数据类型--浏览行为数据(BAD),给出了BAD的明确定义,用于提高传统Web使用挖掘的质量。并提出了一个BAD数据收集框架,从而可以像Web日志文件一样收集BAD并与现有的Web日志整合。最后通过一个电子商务程序的实例,说明BAD能潜在增加现有Web事务挖掘算法的有效性,BAD的引入开辟了Web使用挖掘和知识发现的一个新的领域。   (2)目前大多数挖掘关联规则的算法是静态挖掘算法,在实际Web应用中新的事务都是增量地更新入数据库,现有的算法已经满足不了这种高速的增长。在本文中提出了基于FUFP-tree和Per-Large-Itemset的增量挖掘算法Pre-FP,该算法在更新的事务数目未超过设定阀值的情况下不需要重新扫描原始数据库,特别是每次新增的数据量相对原始数据库比较小的情况下,Pre-FP算法在更新频繁模式树的结构上取得了良好的执行效率。
其他文献
随着人类基因组计划的开展,以及各种生物基因序列的研究,产生了越来越多的分子序列数据。对这些序列数据进行科学的分析、处理可以推动生物信息学的发展。序列分析是生物信息
长久以来,企业界一直在信息化建设和资金投入间艰难的寻找平衡点。近几年来,随着x86体系结构计算机性能的飞速提升,软件人员开始将过去应用在大中型计算机上的虚拟化技术带到x86
随着我国加入WTO以及市场经济体制的逐渐完善,高校间的竞争日益凸现。决策支持系统在高校中的应用研究将充分利用现有的高校信息资源,从更高的层面优化学校资源配置,从整体、宏
计算机技术被认为是20世纪三大科学革命之一,电子计算机为社会的发展起到了巨大的促进作用,但是量子物理学己经成功地预测出芯片微处理能力的增长不能长期地保持下去。基于这
说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出说话人的过程,它是语音信号处理的一个重要研究方向,作为一种生物认证技术,具有广泛的应用前景。
概念格理论是Wille在1982年提出的一种数学理论,也被称作形式概念分析(FCA)。概念格理论是一种可以从数据集中找出概念结构的数据分析工具,它的层次结构是信息表示的基础,如
在数字信息技术和网络技术高速发展的今天,嵌入式系统已经广泛地渗透到人们的日常生活等方方面面中。而在嵌入式系统开发流程中调试是一个相当重要的环节,调试器是衡量一个系
运动控制是伴随着电机相关控制技术的发展而产生的一种多学科交叉技术。一般是指在复杂情况下,把制定的控制流程、指令序列转变成希望的机械运动,用来达到对机械运动过程的精
随着计算机技术的发展,个人电脑、服务器、工作站的性能不断增强,高速网络系统快速发展。大型计算机系统从使用传统的大型机、巨型机向使用由多机组成的计算机集群系统方向发