【摘 要】
:
数据挖掘是指从分散的异构信息中获取知识的过程,其直接目的是快速检索有用信息,将数据挖掘与Web结合形成的Web信息挖掘是处理海量Web信息的有效手段。虽然Web信息挖掘能极大
【出 处】
:
华北电力大学(北京) 华北电力大学
论文部分内容阅读
数据挖掘是指从分散的异构信息中获取知识的过程,其直接目的是快速检索有用信息,将数据挖掘与Web结合形成的Web信息挖掘是处理海量Web信息的有效手段。虽然Web信息挖掘能极大地提高信息检索准确率,但其在智能性和分布式处理方面存在不尽人意的地方。而智能体即Agent特有的智能性和社会性等特征以及对处理分布式信息的先天优势,又给数据挖掘的研究带来了很多活力,因此基于智能体的数据挖掘技术应用于Web领域,成为众多研究者的关注热点,开发更智能、更准确的信息挖掘系统,提升现代信息系统的效率无疑是行业发展的趋势。本文将多Agent技术与数据挖掘充分结合,研究对象为海量Web信息,提出了通用的基于多Agent的Web信息挖掘模型,构建了以Agent为载体并携带数据挖掘算法的算法库,重点分析和研究了Web文本特征提取算法和文本分类算法。研究了面向Agent的建模理论,充分论证了Agent与数据挖掘结合的可行性,并对基于Agent的Web信息挖掘模型进行了模块化分析,突出阐述了模块实现过程中的关键技术。结合多Agent开发与扩展平台JADE,以模型为基础,设计了Web信息挖掘原型系统,原型系统基于B/S架构,分析了信息集成模块、挖掘算法模块、信息检索模块的实现技术,对系统设计的技术难点进行了分析和评估,具体应用可以根据实际以原型系统为基础,进行修改和扩展。
其他文献
随着全球信息化的不断发展,对地理信息系统(GIS)的应用也越来越广泛,例如电力GIS系统等。如今的GIS系统,不仅需要处理二维空间的数据,还要对三维或者更高维空间的数据进行处
伴随着科技的发展,大量的手持可摄像电子设备已经走进到广大群众的日常生活中,人们虽然在享受方便,快捷,丰富的各种多媒体信息,但是同时也感受到了对多媒体信息处理的各种困
随着信息技术的迅猛发展,人们可以通过互联网从世界各地接收和发送信息,而信息交换过程中的一个突出问题就是数据格式的异构性,这将极大地阻碍对信息进行有效地使用。XML的出现
社会网络是指社会个体成员之间因为互动而形成的相对稳定的关系体系,其中联系较为紧密的团体称为社区,处在同一社区中的个体更易于受到社区内其他人的影响,而社区挖掘技术就是挖
肺癌是严重威胁人们生存的疾病,目前,已经跃居成为世界恶性肿瘤病例的第一位。而计算机辅助诊断系统(CAD)对早期肺癌的发现和诊断有十分重要的价值。肺区域分割作为基于医学影
网络游戏现在已经进入三维网络游戏的时代,它以逼真的画面,巨大的游戏场景赢得了玩家的认可。由于游戏规模越来越大,在线人数增多,使得网络延时、丢包和集群的负载均衡等问题越来
支持向量机是由Vapnik等人基于统计学习理论提出的一种新型的机器学习方法。支持向量机基于结构风险最小化原理,综合考虑了经验风险和置信风险,具有良好的泛化能力和较高的分
随着互联网的迅速发展,网络上的信息成爆炸式增长。自从Tim Berners-Lee提出Web2.0的概念之后,用户从被动的接受信息逐渐转变成信息发布的参与者。社会标签是Web2.0的众多应用
随着计算机网络技术的发展,为了满足视频点播、网络会议、网络实时游戏等多媒体应用这些当今因特网的主流业务,急需建立一种高效的、有QoS保障的数据通信机制。建立这种机制主
近年来,不确定数据的管理吸引了来自工业界和学术界的极大关注,特别在诸如无线传感器网络、生物技术和生物数据库、基于位置的服务和数据流等新兴的领域中。为了准确获取不确定