论文部分内容阅读
突发事件都具有随机性、突然性和危害性的特征。在互联网环境下,突发事件网络信息通过新闻、评论、发贴、回复等形式反映出来,具有传播快捷、信息多元、方式互动等显著特点,这使突发事件信息监测和处理所面临的形势非常复杂和严峻。本文针对突发事件信息的采集、处理、跟踪、分析等关键技术进行了研究,并将这些技术在扩展的JADE平台上进行了基于Agent的实现,使突发事件的信息监测系统具有自动化、分布化和智能化的特点。论文的主要贡献和创新点如下:
(1)在分析突发事件信息处理需求基础上,对信息的采集、URL去重、信息抽取等关键技术在分布式环境下的应用进行了研究。提出了聚焦双高网页算法(FDHP),考虑到网页本身的主题相关性和主题质量、网页中URL的可信度因素,该算法能使爬虫能够采集到高质量、高相关度的主题网页。提出了分段式RP算法(SRP),该算法能够在分布式环境下,高效地完成海量的URL的检索去重工作。提出了标注-清洗-统计-抽取方法(MCSA),可对网页信息进行标签标注与清洗、文字分组统计和内容抽取,有较高的F1值,适用于对不同语言网页内容进行快速清洗和抽取工作。
(2)在双高网页的基础上,通过对基于委员会投票选择方法(QBC)的文本分类模型进行分析,提出了扩展QBC方法(EQBC),使未标注数据点能够发挥更大的作用,只需训练少量样本即可得到较好的分类结果,并且有更快的收敛速度。采用不同的分类器分析比较QBC与EQBC两种方法的性能,实验表明EQBC方法具有更好的分类结果,可以得到主题质量更优、相关度更大的突发事件主题网页。
(3)在相关主题跟踪的基础上,对突发事件信息进行了分析,给出了突发事件情景的七元组定义,能够有效地描述和记录突发事件的数据、与环境交互、参与者、行为列表等特征。情景分析框架应包括情景获取、表示、映射和使用四个功能。建立了规则与情景一本体一数据模式映射模型(RSODMM),给出了情景的逻辑关系和条件关系定义以及情景分析框架的组成和处理流程,最后用案例和实验验证了情景分析框架的有效性。
(4)提出并建立了基于多Agent的突发事件信息智能监测原型系统。在突发事件信息采集与处理、主题检测与跟踪、情景系统等领域进行了具体实现。在基于Agent的分布式信息采集系统中,设计并实现了基于Agent的分布式爬虫,可以采用基于关键字和基于双高网页的爬取策略,满足用户对突发事件信息的不同要求。实现了基于主题关键字词典的双语信息检测和基于时间顺序的主题跟踪系统。在情景固化并向情景系统实现时,提出了Agent与情景结合的实现方法,采用Agent角色分析方法实现了突发事件情景系统。
(5)通过对JADE平台进行扩展开发,将相关的突发事件智能应用系统整合起来,实现在更大平台下的分布式运行和部署,将系统结构分为五层。通信传输层、系统容器层和Agent服务层构成了对多Agent系统应用程序的支撑环境,Agent应用层用作智能应用程序的整合,用户接口层负责将用户的请求转化为系统能够理解的命令,并由Agent应用层进行执行。采用分层机制的JADE支撑平台有利于对应用程序层进行扩展,并且支持多Agent程序的分布式运行和管理。