基于SVM的新闻报道特征新事件检测研究

来源 :中南林业科技大学 | 被引量 : 0次 | 上传用户:dianq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的普及,新闻网页已经成为人们获取信息的一个主要来源之一。但面对浩瀚的信息量,人们需要借助某种方式来快速、准确地搜集自己感兴趣的信息。话题检测与追踪(Topic Detection and Tracking, TDT)是一项为了应对信息海量的问题而展开的研究。美国1996年开始组织有关研究机构进行TDT测评,新事件检测(New Event Detection, NED)作为其关键子任务之一,研究的主要内容是怎样通过新事件检测系统检测出事件的第一篇新闻报道。国内相关研究虽起步较晚,但由于话题检测与追踪在信息检索、文本分类等相关领域的实际应用价值,其相关研究已成为信息处理领域的热点。基本的新事件检测系统主要分为文本表示、文本的比较与文本分类与时间窗口选择等几大模块。本文在国内外研究的基础上,以文本形式的中文新闻数据流为处理对象,对自然语言处理技术中时间信息的统一表达、地名的规范化处理、人名库的有效建立方等方面作了改进。特别地,考虑到新闻报道趋向于尽早将报道要义告知读者的特点,本文提出了位置信息这一概念,并在此基础之上通过可加函数和可乘函数对Okapi相似比较函数进行改进。文本的分类方面,本文中采用的支持向量机(Support Vector Machine, SVM)的方法有坚实的数学基础,是机器学习领域关注度相当高的一种方法,尤其是在无监督情形下有着良好的鲁棒性,已被成功的应用于模式识别及回归问题的分析。本文对从中新网、新华网等大型网站收集的含有20个主题的14295篇新闻文档分别采用核回归法(kernel regression)、最近邻域方法(nearest neighbor method)和支持向量机法(Linear-kernel SVM、RBF-kernel SVM)等方法进行新事件检测,通过对采用基本NED系统和改进后的NED系统进行实验得出的检测代价系数进行对比,得到三种方法对应的代价系数分别降低了4.9%、7.3%和13.1%。由此说明了NED系统在应用了基于新闻语料特征改进的向量空间模型和采用体现了词汇位置信息的Okapi相似比较函数后,采用SVM方法进行文本分类较之以核回归方法和最近邻域方法进行分类,NED系统的性能提升更加有效。
其他文献
由于大型线性方程组在化学工程、天气预报、数值方法等领域中都有广泛应用,使得对其求解的研究一直是个热点。随着科学技术的迅猛发展,人们所需要处理的数据量迅速增长。虽然
在科技不断进步的今天,伴随着信息应用领域如多媒体信息技术的迅速发展,以及Internet技术的日益普及,数字图像的来源可谓越来越广泛。面对如此大规模的图像数据库数据,我们不
近年来,随着在线音乐库的蓬勃发展,用户希望通过自动索引方式找到他们喜爱的音乐,通过音乐来舒缓现代社会快节奏、高竞争压力下的心境和情绪,已经成为一种时尚。音色识别,是
近些年,随着互联网的快速发展和网络终端的多样化,网络新闻报道快速增长,新闻信息的结构变得更加复杂。传统的新闻收集、整理、组织和分析工作很难全面的了解新闻报道之间的
在当今社会中,计算机技术被越来越多地应用在在行人导航、大型场馆的人员疏散、时空环境下的交通网络优化、交通网络的评价分析等方面,它们可以统称为时空优化问题。但是在具
支持向量机(Support Vector Machine, SVM)最初于20世纪90年代由Vapnik提出,它采用和传统方法不同的统计学习理论(SLT)为基础,是借助最优化方法解决机器学习问题的一种数据挖
无线多媒体传感器网络的可用频谱有限且通信中干扰严重,如何保障多媒体数据传输的服务质量,是其面临的重要挑战。论文引入认知无线电技术,以满足多媒体流传输的实时性和带宽
使用存储虚拟化技术能够更加充分地发挥存储区域网SAN系统可用性强、扩展性好等特点。在基于带外SAN架构的存储虚拟化系统中,元数据服务器负责整合异构的存储资源和组织元数
随着国民经济的快速发展,各行各业对电能质量的要求不断提高。电力系统无功优化是保证系统安全、经济运行的一种有效手段,是降低网络有功损耗、提高电压质量的重要措施。因此
聚类分析作为数据挖掘中十分重要的一个组成部分,逐渐被许多商家和企业所应用,而聚类分析在一定程度上,受到数据源中待分析数据的线性与非线性制约,在遇到数据之间存在非线性