数据挖掘技术在Web预取中的应用研究

来源 :数字化用户 | 被引量 : 0次 | 上传用户:xunzhaogancao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】随着网络使用者的数量与日俱增,使得网络在使用过程中受到的限制和数据传输迟缓性加剧,网络服务质量受到了很大的影响,针对这种情况就需要对技术进行不断研发,数据挖掘技术在未来将会占有广阔的市场。数据挖掘技术主要对不同的用户进行分析和归类,对Web中的数据进行预读,提高网络使用速度。本文主要介绍了数据挖掘技术在Web预取中的使用规则和使用方法。
  【关键词】数据挖掘 Web预取 应用
  随着网络技术的不断发展,越来越多的行业和领域开始利用网络这一平台来进行自我发展。互联网的使用使得人们的生活方式更加趋于多样性。其中WWW以其自身的传输方式和较好的交互性能使得其获得了广泛的应用。虽然在近些年的发展中,网络速度大大提高,但由于使用人数众多,为网络质量带来了较大的影响。WWW采用请求和数据服务的方式运行,但由于其中存在的协议没有固定的状态,使得网络服务器不能够为用户提供有效的服务。在现有的浏览器中使用缓冲机制,控制用户发送的请求频率,减少远程服务器的发送频率。利用Web预取技术能够根据用户发出的访问请求进行未来请求的预测,在用户进行网页浏览时对预测的内容进行保存,这样就有力的减少了访问过程中产生的缓冲和延迟。预取技术的使用有效地缩短了用户的数据获得时间。
  一、以Agent技术为基础的智能数据挖掘系统
  在现有的数据挖掘系统中,存在各种不同的数据挖掘方式,这些系统有着各自不同的特点,但由于其智能性尚不够完善,因此在使用过程中受到了一定的影响。在Agent技术的基础上进行数据挖掘,是将Agent本身使用到数据挖掘过程中,能够将其本身具有的特点使用到数据挖掘过程中,赋予了数据挖掘系统自治性、自动反应性以及对于环境的适应特点,在整体的结构中包括:数据源、数据预处理、数据挖掘、决策,最后是人机界面,供操作者进行使用。在进行数据与处理的过程中Agent主要对执行的任务进行确定,根据数据建立起相应的模型,对数据进行进一步的分析和数据的处理以及数据的变换。在对数据进行处理的过程中主要包括:对其中的不安全数据进行有效消除、对于缺少的数据进行推导,同时对系统中存在的重复性的记录进行有效消除。在数据产生变化的过程中通常包括按照数据特征进行选择的过程以及将现有的数据进行格式转换的过程。
  数据挖掘功能主要对完成的数据模式进行识别,对于新的模式或新的规则进行确定。Agent功能主要是对数据挖掘出的结果作出相应的解释,同时和人机界面、数据挖掘以及数据的预处理进行进一步的协调,对于存在的冗余数据要进行删除或重新运行,例如对数据进行重新选择、使用新的数据转换方式、重新设定参数等。在人机界面中Agent主要是采用人工挖掘数据的方式,对其过程进行有效调节,并实现过程的提速,人机之间实现良好的交互。在发现新的数据时通知用户,这种功能需要具有较强的语法和语义功能。在Agent基础上进行的数据挖掘能够对信息进行收集和预处理,并对查询到的知识进行自动提取和深度挖掘,使得整个系统更具有知识性和技能性。
  二、以Agent为基础的Web预取系统
  在Web系统中使用Agent智能数据挖掘系统能够建立起响应的Web预取系统,在整体结构中包括本地Cache、数据预处理Agent、浏览器、挖掘Agent、人机交互界面、知识库、决策Agent。
  在Web预取系统中又分为数据预处理功能,其主要是对WWW数据模型中产生的数据进行处理,对其中相关的词干进行抽取,并对使用到的词条按照性质进行分类。数据挖掘模块主要是讲搜索相关的知识库进行定期的更新,为了提高系统在使用中产生的效率和灵活程度,用户能够对其进行更新时间设定。决策模块主要是对用户的行为进行实时监测,其能够从浏览器中获取用户需要的页面,根据用户产生的行为对其将要使用的页面进行预测,同时将Web页面存放到本地的高速缓存之中。决策模块主要是根据相关的知识库对使用的增量算法进行有效调整,并能够对数据挖掘时间进行灵活调动,不仅提高了系统的整体运行效率,同时也实现了相关知识库信息和用户行为有效地做到了同步进行。
  三、浏览器模型改进和机器学习
  在Web预取的过程中使用数据挖掘的算法,要实现对于浏览器的使用就需要在原有的系统使用基础上加以改进,例如:可以采用为用户提供操作历史记录和访问历史数据保存的方式。在用户进行页面浏览的过程中,利用预测模型对用户将要访问到的数据进行保存,并将网页中的内容保存到客户端中,之后,如果用户对相连接的页面进行访问,就能够直接从本地缓存中获取数据,提高了服务器的使用效率。
  数据挖掘技术的产生主要是由于机器的不断改进和学习的不断深入。在进行网络的使用过程中由于人和人之间存在着差异,以及在进行网页浏览的过程中存在着一定的随意性,因此就影响到了管联规则在计算的过程中失准,使得缓存不能够使用,宽带不能够发挥正常的作用。针对这种情况,就要不断地调整预测模型,从而保证预测的准确性。只有保证了其精准性,才能够使上网速度大大提高。
  四、结束语
  本文主要针对数据挖掘技术在WWW数据模型中使用的数据进行挖掘,从而获得和用户兴趣相关联的规则,并在此基础上对用户的下一步行为进行预测,将用户接下来可能会使用到的网页保存在本地文件夹中,保证之后的数据提取速度,从而提高浏览器的使用速度。将Web预取和数据挖掘以及Agent技术相结合,能够有效保证网页的使用质量,在未来的市场中将获得更大的发展前景。
  参考文献:
  [1]張卫丰,徐宝文.Web 搜索引擎框架研究[J].计算机研究与发展,2010(37).
  [2]邹涛,等.WWW上的信息挖掘技术及实现[J].计算机研究与发展,2009(8).
其他文献
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
科技的进步,促进工程建设事业得到快速发展.工程施工的质量与测绘工程的质量有着十分密切的关系,随着我国工程技术的迅速发展,对测绘工程的质量要求也越来越高,而当前测绘工
我国是一个幅员辽阔、矿产资源丰富的国家,矿产资源带动了我国经济的发展.本文首先对地质找矿勘查技术原则进行了深度的剖析,接着就地质找矿勘查技术的合理创新方式进行探索,
近年来,靶向治疗在乳腺癌治疗中的应用广泛并取得了显著疗效.乳腺癌的发病机制涉及多个基因异常表达通路,每个乳腺癌患者的致病因素和体内突变基因都不相同[1-2].RNA干扰(RNAi)因其特有的高效性、特异性、低毒性,为乳腺癌个性化基因治疗的研究开辟了1条新的途径[3].现就RNAi在乳腺癌分子靶向治疗研究中的最新进展综述如下.一、RNAi概述1.RNAi现象:RNAi是由双链RNA引发的序列特异性转
期刊
现如今,随着我国科学技术的不断进步,测绘新技术在国土测绘工程中的运用越来越广泛.当前我国的测绘新技术种类繁多,可以做到根据测绘环境的不同特点以及不同的精度要求,较为
自平衡测试技术是目前在桥梁工程中使用较多的一种桩基检测技术,不仅操作简单、安全,而且检测结果可靠性高.本文首先对自平衡测试技术在国内外各大桥梁工程中的实际应用情况
移动式压力容器是一种运输装备,主要是由压力容器罐体或钢制无缝瓶式压力容器连接而成的,有罐式和瓶式两种,容器之间与走行装置或框架之间的连接是永久性的.移动式压力容器汽
随着我国科学技术的不断发展,在测绘行业中应用新型技术已经成为顺应时代发展的必然趋势.其中,无人机航测技术在获取空间数据的同时,有效减少了测绘成本,提高了测绘项目的准
【摘 要】本文通过对几例电磁干扰现象对在动力环境中电磁干扰呈现出的特点进行了分析,对如何在通讯设备的设计中切实有效地加强设备在动力环境中的抗电磁干扰能力以提高电子通讯设备的总体安全性做了简略探讨,以期能对我国电子通讯业的发展和进步有所启发和帮助。  【关键词】电子通讯设备 动力环境 电磁抗扰性  一、引言  随着社会经济的高速发展和科学技术的不断进步,各类通讯设备在一些诸如电厂、变电站之类的动力环
研究了弹性基础上具有一对混合约束边界的矩形中厚板的振动特性问题 .结合运用子域分解技术、单向 DQ离散格式和 Galerkin法 ,给出了相应的的半解析分析方法 .通过算例讨论了