数据挖掘在网络信息检索中的应用

来源 :电脑迷 | 被引量 : 0次 | 上传用户:ll6960071
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 本文阐述了数据挖掘的基本理论,及其在网络信息检索中的应用,分析了数据挖掘对网络信息资源、网络信息检索结果、用户检索需求等方面性能的提升,并对网络信息检索未来发展进行了展望。
  关键词 数据挖掘 网络信息检索 数据挖掘
  中图分类号:TP311.138 文献标识码:A
  目前,网络信息资源数据形式丰富多样,数量巨大,并呈几何级数的速度增长,基本满足了人们的信息检索的量的需求,然而如何快速、高效地找到自己所需要的信息,网络信息检索在查全率和查准率上还相对欠缺。网络搜索引擎通常会返回给用户成千上万检索到的网页,其中大部分与用户的检索要求无关,另外就网络上的知识发现而言,即使检索精度再高,搜索引擎也不能够胜任。因此,人们需要比信息检索更精确高效的、能包含网络数据库在内的新的数据挖掘技术,数据挖掘正是在这样的应用需求下产生并迅速发展起来的。但是,数据库领域采用的数据挖掘技术所涉及的多是结构化数据,为了处理网络上的异质、非结构化或半结构化数据,网络数据挖掘成为数据挖掘研究的一个重要分支。
  1 网络信息检索
  网络信息检索一般指因特网检索,是通过网络接口软件,用户可以在一处终端查询各地上网的信息资源。网络信息检索主要依靠计算机科学技术、网络技术和数据的确切特征来创建相应的索引结构、数据库等,能很好地处理已经发生或存在的静态信息。网络信息检索工具包括传统的服务工具:远程登录、文件传输服务、电子邮件、电子公告牌、广域消息服务、Gopher、WWW、基于Z39.50的信息检索服务、代理服务器和NAT,以及搜索引擎和中外著名网络数据库检索。这些工具都能有效地组织和检索海量数据,但对数据未来的变化趋势等动态信息缺乏有效的统计和预测。
  2 数据挖掘及Web数据挖掘
  数据挖掘(Data Mining),即从大量模糊的数据中发现隐含的规律性内容,解决数据的应用质量问题的技术,是一种还处于发展中,已经部分投入实际生产实践的技术框架。
  Web数据挖掘是从数据挖掘技术发展而来,简单地说是将数据挖掘技术应用到Web上,也称为Web挖掘。其技术性的定义是:Web数据挖掘,是一项涉及Web、数据挖掘、信息学、计算机语言学等多个领域的综合技术。Web数据挖掘的目的是为了揭示网络信息中隐含的知识,它是比信息检索层次更高、更精确的一种技术。它能够根据用户个性化定义的要求,根据目标的特征信息在网络上或者数据库中进行有目的的信息检索。Web数据挖掘中几种常用的技术是:关联规则技术、分类技术、聚类技术、路径分析技术和序列模式技术。
  3 数据挖掘在网络信息检索中的应用
  目前,作为网络信息检索最重要最常用的工具:搜索引擎,只能处理用户给出的特定关键词形式表示的简单目标,而无法处理用户给出的样本形式的复杂模糊目标,对网络数据未来的变化趋势等动态信息也缺乏有效的统计和预测。而将数据挖掘技术运用的网络信息检索中,可以使网络信息检索过程及结果更加快速、精确、个性化。
  (1)数据挖掘提高网络信息内容自动摘要的准确率。网络信息资源一般都有关键词和内容摘要供用户检索选择之用,但大部分的自动摘要都是简单的抽取网页文档的前几句内容,而仅仅是通过位置来确定的,这种方式很不准确,不能精确的反映网页的全部内容,所以保证自动摘要的正确性非常重要。数据挖掘中的文本抽取就是从文档中抽出关键信息,对文档本身的内容而不是位置来进行文本内容的总结,以自然语言理解为基础,更可揭示网络信息的主题特征知识及其之间的相互关联知识,对文档进行语义甚至语用的标注,因此它更能反映出Web文档中的真正信息,然后以简单的形式进行摘要或表示,可以提炼出文档最重要的信息生成关键字或摘要,使自动摘要的质量和准确性很大的提高。
  (2)数据挖掘拓宽网络信息资源量。网络信息资源数量众多,分布范围很广,大部分可以直接用网络信息检索工具查询到的信息都是网页中的文字、表格、图形、图像、声音、视频或好友网页的链接及目录结构等。但是还有一些潜在网络信息不容易被搜索引擎等工具查询到,如用ASP,JSP或PHP生成的动态网页;一些专业数据库系统中的数据;在Robot Exclusion框架协议下被拒绝搜索访问的网站;由用户的提问而动态生成的结果;存在于商业数据库管理系统中的数据等,它们无法被索引,从而无法提供有效的检索方式,这些结构化的或用html标记的半结构化数据都可以用数据挖掘中的内容挖掘进行处理,网络页面内容挖掘常采用的技术是文本挖掘和多媒体挖掘,可为这些网络信息提供明确的摘要或索引,使得本来不容易搜索到,潜在隐藏的信息能被明确的搜索到,从而大大拓宽了网络信息的资源量。
  4 网络信息检索的未来展望
  数据挖掘能发现网络中隐含的有价值的信息和知识,从而提高标引、自动摘要、自动分类和自动聚类等的准确率;能促进用户兴趣模型的构建,从而为用户提供更好的个性化信息服务。此外,它独特的分析方法能发现网络数据知识之间的各种关系,使网站建设和检索结果的分布更加合理。随着本体、网络、自然语言处理、信息可视化和人工智能等技术的发展,将数据挖掘与这些技术进行结合,未来的网络信息检索将朝这更加精准、个性和智能化方向发展。
  参考文献
  [1] 陈维.网络环境下的信息检索与数据挖掘技术[J].现代情报,2009(5).
  [2] 李村合.网络信息挖掘技术及其应用研究[J].情报科学,2008.
其他文献
摘 要 为了解决计算密集型的图像平滑,在分析常见的平滑算法的基础上,采用统一计算设备架构的软件和硬件架构,提出了一种利用图形处理器(GPU)的实现方法。首先引入了高强度的GPU并行计算的结构,介绍了GPU均值滤波和中值滤波两种典型的算法。然后,用不同分辨率的图像作为测试数据,比较相同的市场价格下CPU和GPU之间的计算效率。实验结果表明,同种算法GPU获得了与CPU相同的效果,同时提高的计算效率是
文学形象是社会、文化变迁的参照物,知识分子形象作为作家对知识分子群体的价值理解与精神认同,是文学在特定的时代背景下精神的印记,形象的解读必然要涉及社会历史变迁的内在机
摘 要 随着网络的不断普及,越来越多的企业将网络运用到其自身的内部管理当中。但是,网络是把双刃剑,在方便内部网络管理的同时,由于自身的缺陷,也会导致一部分的网络病毒、黑客、系统攻击等问题的出现。这样的问题如果在网络内部形成,一旦收到侵害,那么造成的损失是无法预计的。本文从企业内部网络的安全现状入手分析,结合其中普遍存在的漏洞问题进行探析,在此笔者就自身的专业知识,以及多年来对于网络的维护,立足于解
阿摩司·奥兹是当代以色列文坛最富有影响力的作家之一,是继耶胡达·阿米亥之后译介最广的希伯来文作家.奥兹曾获多国文学奖项,包括法国的“费米娜奖”、德国的“歌德文化奖”