基于Web日志挖掘技术的商务信息系统构建

来源 :科学与财富 | 被引量 : 0次 | 上传用户:tq19822002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:Web日志挖掘,是Web使用挖掘的一种,就是通过对Web日志记录的挖掘,发现用户访问Web页面的模式,从而进一步分析和研究Web日志记录中的规律,以期改进Web站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,这在电子商务等领域是大有作为的。
  关键词:Web日志挖掘,商务信息网站,数据
  1.Web日志挖掘的概念
  Web日志挖掘,是Web使用挖掘的一种,就是通过对Web日志记录的挖掘,发现用户访问Web页面的模式,从而进一步分析和研究Web日志记录中的规律,以期改进Web站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,这在电子商务等领域是大有作为的。
  用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问信息发现。web日志挖掘是关于用户行为及潜在顾客信息的发现,一般包括三个阶段,即数据预处理、模式识别及模式分析。
  2.Web日志挖掘的过程
  Web日志挖掘通过分析和研究Web日志记录中的规律,识别电子商务的潜在用户,提高对最终用户信息服务的质量并改进Web服务系统的性能和结构。
  2.1数据预处理
  Web日志文件记录中存储的是用户访问站点信息的原始记录,直接在这些数据上面进行挖掘是比较困难的,在使用算法或工具对其进行分析之前,必须进行预处理。预处理过程是Web日志挖掘质量保证的关键,因为处理后的数据好坏、全面与否,直接影响到数据挖掘的结果,进而对网站决策者的决策造成直接影响。特别是中小型电子商务网站,其数据相对较少,因此数据处理的准确性极为重要。Web日志预处理主要有4个步骤:数据净化、用户识别、会话识别和数据合并。
  Web日志文件中包含一些不能反映用户行为的记录,数据净化就是去掉这些记录。而用户识别的目的是对用户的唯一性的识别。在通常情况下,只有通过分析日志文件中的IP地址、agent等信息来识别不同的用户。会话识别是建立在对用户识别的基础上的,其目的是将用户的访问记录分为单个会话。同时,对于网站上繁杂的页面,由于数量较多,而且有许多网页的内容有一定的联系或相似之处,所以可以对其进行一定程度的合并,从而将其分成能反映网站逻辑信息的同质类别。特别是中小型电子商务网站的网页,由于网站设计人员的知识架构、技术层次以及对所要设计的网站内容的了解程度的限制,很难建立一个完全无重复内容网页和完全反映网站逻辑信息的网站。
  2.2模式发现
  模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等。
  2.3模式分析
  模式分析是Web日志挖掘中的最后一项重要的步骤,主要是为了在模式发现算法找到的模式集合中发现有趣(有用)的模式。对于一个商务信息系统,通过模式发现与模式分析,可以得到详细的用户反馈,帮助他们根据实际用户的浏览情况,调整网站的网页链接结构和网页内容,对网站进行优化,从而延长用户的驻留时间,挽留老用户、吸引新州户,并增加用户的购买率,以此獲得电子商务网站的成功运行;而通过对内部管理系统用户的聚类,可以明确网站运营的缺陷在哪里,还有何可以改进的地方。
  3.Web日志挖掘技术在商务信息系统中的构建
  3.1建立个性化的网站模型
  (1)用户可以通过注册后访问网站,也可以不通过注册直接访问;(2)针对不同的用户,网站提供不同的服务;(3)根据用户的访问记录信息,动态调整网站的页面,产生的个性化的网站使得用户可以更容易地到达他所需服务的数据网页;(4)挖掘用户的Web访问日志,在用户定制区内预测并推荐用户的潜在访问网页链接。
  3.2个性化网站系统的框架
  系统主要由4个功能模块组成,分别为用户识别模块,行为记录模块,兴趣识别模块和个性推荐模块。各个模块的说明如下。
  (1)用户识别模块。用户识别模块处理用户的基本信息并识别用户。包括用户的登录名(注册用户有自己唯一对应的name;非注册用户有一个共同的name,但有不同的Cookie值);用户登录密码;用户注册个人信息时填入的喜好;以及为了更加准确地识别用户而获取的关于用户身份的其他一些基本信息,如MAC地址、IP地址、浏览器版本号和操作系统版本号等。用户登录后通过用户名或Cookie值为每个用户分配UserID,以方便其他模块进一步地调整网站的页面以及在用户定制区内推荐该用户可能访问的链接。
  (2)行为记录模块。用户的访问(行为记录)日志是系统进行用户个性化特征分析的数据依据和数据基础。访问日志模块处理用户行为记录的各项信息,包括用户访问某一页面的时间以及在该页面停留的时间,访问某一页面的次数,用户访问网站的某页面的URL地址,为其他相关模块提供用户信息,以及对大量数据保存方面的管理配置。
  (3)兴趣识别模块。一个网站由众多网页构成的结点组成,结点之间的联系是通过页面的链接来实现的。一些大型门户网站首页,大量的链接让人跟花缭乱。在这类网站上让用户填写兴趣表单只会考验用户的耐心。因此根据用户在网站中各页面的停留时间和访问次数等特征,结合用户参与、识别、建立、调整该用户的喜好,可以避免用户填写一系列繁琐的表单操作。
  兴趣的识别模块将根据访问日志模块所给出的各个用户不同信息计算得到该用户的兴趣强度,并且把识别的结果存储在用户兴趣分类中,以便为页面显示提供数据源。
  (4)个性推荐模块。个性推荐模块的功能包括兴趣回顾和兴趣推荐,根据用户过去的行为预测用户的将来行为。网站的用户在登录以后,个性推荐模块根据用户的UserlD查找用户兴趣库中该用户的历史兴趣,利用个性化推荐进行兴趣推荐。系统针对用户的不同兴趣提供相应的服务。在页面主显示区和用户定制区分别显示相应的内容。免去用户多次点击链接的麻烦,使用户的访问更加有效率。
  4.结束语
  Web日志挖掘技术为商务信息网站构建的合理性分析以及相关电子商务信息系统建设提供了重要的科学指导。实践证明,通过对Web日志进行预处理,清理、过滤以及重新组合不规范的记录,并将Web日志中的数据转换为挖掘算法可识别的形式来挖掘关联规则,并对用户进行聚类和分类,能够找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,发现用户访问Web页面的模式,从而改进Web站点的性能和组织结构,提高用户查找信息的质量和效率。
  参考文献
  [1] 陈京民.数据仓库与数据挖掘技术(第2版)[M].电子工业出版社,2007.
  [2] Dunham Margaret H.数据挖掘教程.清华大学出版社,2005.
  [3] 梁循.数据挖掘算法与应用.北京大学出版社,2006.
  [4] 戴永群.web挖掘研究与应用.计算机与信息技术,2007.
  [5] 丁瑾.基于Web数据挖掘的综述.科技开发情报与经济,2004
其他文献
[摘 要]在经济全球化的今天,电子商务越来越多的得到运用,这对于规模较小、资金有限、管理欠缺的中小企业企业存货管理来说是个机遇。本文着重对我国中小企业存货管理存在的问题进行分析,并提出相应的解决问题办法,希望对我国中小企业在存货管理有一定的帮助。  关键词: 电子商务,中小企业,存货管理,问题,对策  一、电子商务下中小企业存货管理影响  (一)增大存货信息量  电子商务在中小企业中越来越多的运用
期刊
摘要:伊斯兰教中道思想对在伊斯兰教界培育社会主义核心价值观具有很大的作用。在伊斯兰教界以社会主义价值观为引领践行中道思想对于凝聚社会共识、增进民族团结、维护社会稳定、实现中国梦具有重要的现实意义。文章分析了中道思想对伊斯兰教界培育社会主义核心价值观的意义,提出了发挥中道思想在伊斯兰教界培育社会主义核心价值观的具体途径。  关键词:中道思想;伊斯兰教;培育  一、中道思想对伊斯兰教界培育社会主义核心
期刊
摘 要:实验室应定期对管理体系进行内部审核,以验证其运作持续符合管理体系文件和《检验检测机构资质认定评审准则》的要求。本文就如何更好的开展内部审核工作进行了探讨,并提出了几点建议。  关键词:实验室;内部审核  审核是为获得审核证据并对其进行客观评价,以确定满足审核准则的程度所进行的系统的、独立的并形成文件的过程[1]。  管理体系内部审核(以下简称内审)是实验室自身建立的一种评价机制,是对所策划
期刊
摘要:建筑行业历来就是推动我国经济不断发展的重要行业,但是随着近年来建筑行业的发展,其中资源消耗巨大,浪费严重的现象也已经干扰到了建筑行业的正常发展。近年来我国政府一直在通过各种措施引导建筑行业的可持续发展,绿色建筑和绿色施工的理念就是在这样的环境下诞生的,但是从相关建筑工程的立项过程我们就可以看出,方案设计方的工作是缺乏有效监督的,虽然说他们可能追求的是将项目的方案设计的更加完美,但是这在无形之
期刊
目前我国英语专业人才培养存在着许多问题,如目标定位有误,缺少针对性、课程体系固化,缺少适应性、教学模式单一,缺少实践性以及教育淡化,缺少规范性等。因此,应用型本科院校应该怎样建设英语专业,是一个值得探讨的问题。  一、应用型本科英语专业的定位  英语专业建设和发展应该坚持与时俱进,实事求是,立足地方、圍绕市场和企业需求,坚持职业化和专业化紧密结合的指导思想。  (一) 目标定位  应用本科院校是要
期刊
[摘要]本论文在WebGIS原理和Web关键技术的基础上,研究了基于Google地图的空间数据采集与建库的方法。综合利用Google Map API和Apache、PHP、MySQL等软件,设计了一个基于Google地图进行矢量数据在线采集的WebGIS信息系统。实现了矢量数据的在线获取、空间数据存储、在线显示和数据库访问服务接口等功能。  [关键词] WebGIS;空间数据;在线采集  前言  
期刊
摘要:自媒体的出现让人们进入了一个社交时代,自媒体具有交互强,传播快,平民化,个性化,低门槛,易操作等独特优势,近年来一直处于稳定增长的态势。在自媒体环境下消费者信息接触习惯发生了重大变化。文章从受众信息需求的表达,受众信息传播接触群体、受众的购买决策三方面对受众信息接触习惯的变革进行探讨。  关键词: 自媒体 受众 信息接触习惯  自媒体又称公民媒体,这一概念源自于美国新闻学会媒体中心2003年
期刊
摘 要:在现今的社会发展过程中,档案管理工作愈发受到人们的重视,当前的档案管理形势是现代化以及电子化的趋势,所以加强对档案人员档案意识的培养是相当有必要的。因为档案意识与档案关系具有密不可分的联系,加强对这两方面关系的研究显得十分必要,本文重点对二者之间的关系进行了详细的分析,希望对今后的研究工作起到一定的帮助,促进档案管理的工作效率得到进一步的提高。  关键词:档案意识;档案工作;区别  在经济
期刊
摘 要:档案管理机构是我国文化事业机构的重要组成部分,可实现对档案资源的永久保存,科学研究以及各反面工作都离不开对档案资源的利用。为在真正意义上实现档案管理工作的改革与创新,必须对技术设备以及技术手段进行更新,这对档案管理工作的顺利进行有重要意义。本文首先对档案管理工作的重要性进行仔细分析,然后对其中存在的问题进行探究,最后提出建议。  关键词:基层档案管理;现代化;专业技术人员;素质  1 档案
期刊
摘要:德育工作是学校教育工作的灵魂,是实现"中国梦"的关键。全体教师要摒弃那些重智育轻德育的现象,运用科学的教育方法和先进的教学模式,培养学生良好的思想品德。笔者从三个方面略谈了体会。  关键词:新形势 学校 德育工作  中国教育要加快步伐,大力推进全面实施的素质教育.而素质教育的根本任务是提高全体学生的基本素质,促进德育、智育、美育的全面发展,在这各组成部分中,德育是首要任務。  德育是政治教育
期刊