基于Web日志挖掘系统的设计与实现

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:taotao_xr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及和广泛应用,Web上产生的信息也随之飞速增长,如何从浩瀚的资料中挖掘出有价值的信息,受到各方面的关注。WWW网无论是在访问量、规模上还是在网站设计的复杂度上都以惊人的速度增长着。像Web站点设计、Web服务设计和一些通过Web网站进行简单的导航模式设计也都增大了设计的难度。为了更好地设计Web服务器,一个更好的方式就是分析原来的网站是如何被利用的。日志数据的分析可以通过统计数据的形式,像统计经常被访问的页面集、统计经常需要分析的重要的表格数据、通过网站分析找出一般的访问路径模式等。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,从而解决上面提出的各种问题。 本研究在简述了Web日志挖掘的概念、研究内容、关键技术和目前的国内外研究状况的基础上,针对某区政府门户网站的访问日志,采用数据挖掘技术进行数据分析,从而找出用户访问规律和内容喜好,为改进网站结构和内容提供了决策支持。论文所做的主要工作是: (1) 对Web日志的预处理进行了研究,给出了预处理的流程并分析了其中的难点;包括数据净化、会话识别、用户识别、路径补充,并描述了预处理模型及其算法流程; (2) 对其经典Apriori算法进行了剖析,提出了改进算法M-Apriori算法,并通过缩减数据项集的办法来提高Apriori算法的执行效率; (3) 对路径遍历模式挖掘进行了研究,例如最大向前路径生成算法,频繁遍历路径挖掘算法,最大频繁遍历挖掘算法,并尝试将其用到某区政府网站的挖掘之中; (4) 根据Apriori改进算法,通过修改源代码的方式应用到Weka挖掘工具中;用改进后的Weka挖掘工具对该政府网站日志进行挖掘,依据挖掘结果给出针对该区政府门户网站的改进建议。
其他文献
中国矿山技术经济研究会第十一届学术年会于1998年9月14日至17日在江西赣州召开。出席这届年会的代表有52人,会议收到论文40篇,会上交流20篇,评出优秀论文20篇。这些论文围绕如何搞好矿山企业,提高
曲靖煤炭整顿后安全、利润同步增长云南省曲靖市自1995年开展煤炭生产清理整顿以来,法治观念增强,流通秩序日趋规范,1997年,由于各级领导抓牢清理整顿这根绳,实现了产量、产值、销售收入、
随着计算机技术的飞速发展,提高软件可靠性的问题变得日益迫切,软件测试是保证软件可靠性的重要手段。统计表明,软件测试工作的成本占软件开发总成本的44﹪-50﹪,因此,对软件测试方法
三值光计算机理论体系是一个很有前景的计算机发展新思路。在这个理论体系中,采用光的两个偏振方向相互正交的线偏振态和无光态表达三值信息。本课题实现的编码器样机是三值光
在软件可靠性领域,关于软件可靠性建模的研究是最早的一个方面。目前已经建立了一批软件可靠性模型,但这些模型通常把软件作为一个整体来描述软件可靠性,而这些假定却不完全符合
作为网络数据分析领域中的一个基本研究问题,链接预测不仅对探究网络的演化规律、数据补齐等问题具有重要的科学研究意义,而且在推荐系统、电子商务、科研合作等领域发挥着重要
中国有句俗话.叫做“老鼠过街.人人喊打”、老鼠偷吃粮食,传播鼠疫,危害人类,自然要列入该打的行列,推而广之.社会上一切假恶丑的东西都可视为人们所厌恶的“老鼠”。我国最
Ad Hoc网络是一种动态多跳无线网络,由一组共享无线信道的移动节点组成。近年来,由于其快速方便的自组织特性和不需要预设网络基础设施等特点,无线Ad Hoc网络已经得到越来越
近年来,分布式对象技术的理论在不断发展,日趋成熟,但基于.Net Framework的分布式对象技术的应用系统尚处于探索阶段。本论文旨在结合分布式体系结构的发展状况,对Microsoft公司
记得在老作家孙犁去世的时候,天津作家吴若增的一篇纪念文章给我留下了深刻的印象,他在文中赞叹孙梨是一个“完成了自己的人”。 I remember when the old writer Sun Li di