【摘 要】
:
基于WWW 的主要信息过滤对象是网页,其中文本是网页信息的主要表达方式。然而现在可用的网页信息过滤系统一般都是手工输入过滤关键字,仅通过简单的字符匹配查找,或是人工导
论文部分内容阅读
基于WWW 的主要信息过滤对象是网页,其中文本是网页信息的主要表达方式。然而现在可用的网页信息过滤系统一般都是手工输入过滤关键字,仅通过简单的字符匹配查找,或是人工导入要过滤的网络端口或链接地址(URL)。显然这样的过滤机制太过笨拙,而且查准率和查全率都很低,面向文本内容识别的智能化信息过滤系统正拭目以待。本文介绍了信息过滤技术的发展现状、存在问题和信息过滤方法,并详细讨论了信息过滤的关键技术和一个完整的自适应过滤系统所必须具有的组件。文中设计的智能网页信息过滤系统名为AIFS,是基于内容理解的中文文本网页的主题探测和过滤。该系统紧密结合了人工智能在信息处理的四大应用:知识获取、知识表示、自然语言理解和机器学习。本文是以AIFS 系统的实现为依托,对智能信息过滤系统的关键技术进行了深入探讨。其中,网络数据处理章节讲述了Windows 下的网络数据包捕获库WinPcap 的原理和实现,并分析了从以太网数据帧中提取网络文本数据的全过程。文本数据处理章节介绍了中文分词和文本表示,详细描述了在AIFS 系统中涉及到的分词算法(如正向最大匹配法、逆向最大匹配法、最大概率法和设立切分标记法)以及基于向量空间模型的文本表示算法,并设计了一种网页文本表示改进算法。自适应处理章节重点讲述了机器学习在智能信息过滤系统中的应用,以AIFS的遗传算法的学习机制为例,实现了一个具有人工智能特性的信息过滤系统。
其他文献
随着风能在电网中的渗透率的提高,各国电网运营商纷纷制定了风电并网导则,以提高电力系统的稳定性。其中,最为严苛的当属低电压穿越(Low-voltage ride through,LVRT)要求,即:当电网
互联电力系统规模不断扩大,电网关联强度不断提升,带来利益的同时,也带来复杂性。其中,短路电流水平的提升,使抵御电网故障时的设备性能面临考验,也制约电网的发展,因此,对电网运行如何权衡正常运行方式与故障方式间的折中就显得尤为重要。电网限流措施无非是靠运行方式改变或更新设备(包括限流设备)两种方式来进行,既然电力系统是人造的,合理的网架设计、合理运行方式确定以避免设备升级应该是前提。然而,短路电流大小
随着社会经济的快速发展,机动车的拥有量不断增加,道路拥堵现象日益严重。道路建设严重不足和交通管理的相对滞后,已成为制约我国城市可持续发展的重要因素。因此,如何提高道路的
目前的混合动力系统中,最成熟的是基于行星齿轮的电控无级变速系统。然而该系统的核心部件行星齿轮是纯机械式结构,不可避免地存在振动、噪声、磨损等问题。为解决上述问题,
为实现电能资源的优化配置和供给,我国正在逐步实施西电东送、全国联网的能源战略。高压直流输电系统在远距离大容量输电和电力系统联网方面具有明显的优势,因此,高压直流输电系
Grid GIS 是地理信息系统发展必由之路,随着Grid GIS 技术发展成熟,最终将纳入SIG 的统一框架之下。Grid GIS 采用网格技术的OGSA 框架,为空间信息服务提供了新的实现模式。
随着Internet/Intranet的迅速发展,基于WWW的网上信息的收集、发布和相关的信息处理日益成为人们关注的焦点。面对着网络上信息数量和种类的高速增长,人们在运用网络获取信息