论文部分内容阅读
随着互联网行业的飞速发展,网络用户行为分析已经成为当下多个学科领域的研究热点之一,Web使用挖掘是网络用户行为分析的重要手段,作为其重要组成部分,Web使用挖掘的预处理由于对后续挖掘效果的重要影响,引起了众多学者的关注。但是,由于现有理论模型存在缺陷,Web使用挖掘预处理无法模拟用户的访问意图。针对该项研究存在的问题,本论文对面向用户意图的Web使用挖掘预处理相关理论进行了探讨,对其若干关键技术提出了改进思路。
本文的研究工作主要包括以下几个方面:
(1)对面向用户意图的Web使用挖掘预处理模型相关问题进行了讨论。第一,Web使用挖掘预处理模型的概念、类型。在现有研究的基础上,将Web使用挖掘预处理分为三类:基于时间的、基于导航的和基于语义的模型。第二,预处理模型的表示方法及改进后的模型表示方法。对其中的各种规则进行统一形式化表示,本文采用集合论来表示预处理模型中的规则,对现有的时间、导航、语义等三类规则各自独立表示。最后,借鉴心理学和信息系统领域的研究成果,通过将三者有机融合,提出一种面向用户意图的预处理模型。第三,日志语义识别方法。本文通过日志语义识别的定义提出其独特的语义分类特点、根据该特点确定日志语义识别的目标、借鉴逻辑语义学的词汇概念确定日志语义识别的标准、对使用聚类还是分类算法来对日志语义分类进行了讨论。第四,面向用户意图的Web使用挖掘预处理模型关键技术。主要包括日志语义分类技术、面向用户意图的会话识别技术和面向用户意图的事务识别技术等。
(2)提出了一种兼容独立日志请求的聚类算法。在语义识别过程中采用K-means算法作为聚类算法,但是该算法必须事先指定一个聚类数k,影响了其自动化水平,现有确定聚类数的方法在单一样本类的处理方面存在不足,导致无法识别用户只访问一个页面的情况,本文针对BWP方法的局限性,借鉴认知心理学中的空间感知原则,提出了改造的算法,对单一样本类的类内距离值进行动态评估。
(3)提出了一种适合动态容量的日志请求网页文本聚类算法。本文采用BWP4方法进行文本聚类,但是对拥有相同词汇的不同内容进行文本聚类时,文本聚类效果不佳,而且聚类效果无法根据样本量动态调整,这就导致用户浏览同一主题的不同网页时无法聚为一类。本文针对BWP4方法的局限性,提出了改造的算法,借鉴发展心理学的分化理论,在类内距离和类间距离的评估中引入共词及发展调节因子。
(4)提出了一种适合大规模容量的日志语义分类算法。本文采用支持向量机进行分类,但是,采用单个简单核进行映射的方式对所有样本进行处理并不合理,因此,出现了大量关于组合核方法的研究。然而,目前组合核函数在构成方法上还存在一定局限性,导致无法准确识别出用户访问不同类别的网页。本文针对线性组合核函数的不足,提出一种基于相乘关系的组合核函数构成算法。
(5)提出了一种面向用户意图的会话识别方法。本文对目前主要的会话识别方法在理论上进行了讨论,归纳成基于时间、基于导航和基于语义的三类方法,对比分析了各种方法的优缺点,指出了会话识别研究的不足。最后,阐述了面向用户意图的会话识别目标、会话识别的要素,在以往研究不足的基础上,提出面向用户意图的会话识别算法,使用户会话识别过程可以同时采用时间、导航、语义三类信息以模拟用户意图。
(6)提出了一种面向用户意图的事务识别方法。从用户事务识别研究的分类入手,分析并指出现有事务识别方法存在的诸多不足,阐述了面向用户意图的事务识别目标、事务识别的要素,并从模拟用户意图角度出发,提出了一种新的事务识别算法,该算法既借鉴了前人的经验,又弥补了以往研究的不足,使事务识别算法能够同时兼顾网页的语义信息和网页的导航作用;同时,本章还通过分析导航页识别算法的不足,借鉴社会网络理论的中心度等概念,给出了面向用户访问意图的导航页识别算法。