WEB信息自动获取平台的设计与实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:m987987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网含有海量信息,然而,人们在面对浩如烟海的网络信息时往往感到束手无策,无法准确快速地获取人们真正需要的信息。本文认为传统信息获取技术与人工智能和Agent技术相结合,能够高效准确地获取网络信息为用户提供个性化信息服务,也是解决互联网“信息过载”问题的有效方法之一。本文利用多Agent技术去解决在获取网络信息时所遇到的问题。 本文主要对如何能高效、准确、个性化的获取信息进行深入研究。首先把对信息获取技术的研究分两个部分来进行,即资源发现模块和信息抽取模块。对于资源发现模块,主要在如何能够从广度和深度两个方面去发现资源提出了一种新的搜索算法,同时利用了多Agent技术实现了分布式的资源发现,每个页面获取Agent携带有基于支持向量机原理实现的分类算法,可以直接对所获取的页面进行分类。在进行资源发现的过程中根据URL评价算法对各个信息源进行了综合评价,根据评价结果对信息源进行排序。对于信息抽取模块,不但考虑到抽取到数据的数量还考虑到抽取到信息的有效性,在该模块提出了一种新的抽取规则表示方法,提高了在信息抽取过程中规则的适应性。在进行抽取的过程中,利用各个类别的Agent进行分布式抽取并对抽取到的数据进行了各种处理如分类,去重等。除此之外,还提出了对规则的有效性进行检验的方法。 其次,在整个信息获取模型中利用了多Agent技术。在对Agent技术进行研究的过程中,对Agent技术的现状及应用领域进行了分析,对Agent技术应用中所遇到的一些问题进行逐个深入分析并给出对策,然后在此基础上建立了在信息获取模型中用到的Agent模型。在此模型基础上可以很方便的管理和创建具有一定功能的Agent和派遣或收回Agent,这加强了各个Agent之间的交流和合作。 最后,基于所建立的信息获取模型对信息自动获取平台进行了设计与实现。经过对平台的整个运行情况进行一周的观察,发现平台运行情况良好,平均每天可以获取约10万多条各种农业数据。达到了我们的设计目的,同时也是对所建立的信息获取模型的一个验证。
其他文献
种子处理是促进农业生产的一项重要措施,经过种子处理可以提高种子发芽能力,改善作物品质,缩短作物生育期,提高作物总产量。过去常用化学溶液处理种子,起到灭菌杀虫、提高发
说话人识别是指通过语音来识别说话人的身份。作为一种基于生物特征信息的身份识别方法,它在电子商务、消费、银行等远程客户服务的身份认证、军事安全领域的说话人身份自动
电路印刷板PCB板作为现代电子设备的重要组成部分,其质量直接影响到产品的性能。对电路板进行在线检测和及时差错纠正,可以避免废品、改善质量、降低损耗。近年来随着PCB生产
汽轮机组的诊断一直是故障诊断技术应用的一个重要方面。在众多常见故障的发生率中,振动故障占了总数的95%以上。基于这种考虑才选定了汽轮机故障诊断技术研究一题,尤其是探
目前有线电视的主要网络为HFC(Hybrid Fiber-Coax)光纤同轴电缆混合网。为提升业务能力,充分利用现有庞大的HFC基础网络来拓展双向传输业务(诸如:宽带、数字电视、视频点播),本
语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。到目前为止,语音识别研究大
间歇过程在现代工业生产中所占地位越来越重。为保证间歇过程安全稳定运行和产品质量的达标,对间歇过程进行实时的在线监控具有重要意义。随着在线测量仪器和计算机技术的发
目前,在靶场落炸点测试中,往往存在测试区域较广,引起传统有线检测设备布置的传输导线过多且过长;当弹丸落炸点较多时,易损坏传输导线,造成数据遗失。为了消除数据遗失等问题,将ZigB
为了在保证开关管安全的前提下,以现有的器件条件来实现逆变器的高频化,本文研究了感应加热电源中的倍频方式实现。首先介绍了感应加热的基本原理及感应加热技术的发展动态,分析比较了感应加热电源的谐振槽路和常用控制技术,选择了更适合高频应用的串联谐振来实现倍频式感应加热电源。其次文中给出了一种新的倍频逆变拓扑结构以及吸收电路的参数设计方法,实现了电路工作频率的提高,以及功率器件开关条件的改善,降低了功率MO
本文利用机理分析法建立了R2R型(双段再生)催化裂化反应-再生系统的动态数学模型。本数学模型分为6个部分,分别为提升管反应器、气提分离器、一段再生器、稀相管、二段再生器和控制系统。提升管反应器部分采用六集总动力学模型,建立了以长度为微元的拟稳态模型;稀相管部分与提升管反应器部分同为管式反应器,也采用拟稳态模型;针对气体分离器、一段、二段再生器,本文简化为均匀搅拌槽(CST),建立了它们的集中参数模