论文部分内容阅读
随着因特网的普及,新闻网页已经成为人们获取信息的一个主要来源之一。但面对浩瀚的信息量,人们需要借助某种方式来快速、准确地搜集自己感兴趣的信息。话题检测与追踪(Topic Detection and Tracking, TDT)是一项为了应对信息海量的问题而展开的研究。美国1996年开始组织有关研究机构进行TDT测评,新事件检测(New Event Detection, NED)作为其关键子任务之一,研究的主要内容是怎样通过新事件检测系统检测出事件的第一篇新闻报道。国内相关研究虽起步较晚,但由于话题检测与追踪在信息检索、文本分类等相关领域的实际应用价值,其相关研究已成为信息处理领域的热点。基本的新事件检测系统主要分为文本表示、文本的比较与文本分类与时间窗口选择等几大模块。本文在国内外研究的基础上,以文本形式的中文新闻数据流为处理对象,对自然语言处理技术中时间信息的统一表达、地名的规范化处理、人名库的有效建立方等方面作了改进。特别地,考虑到新闻报道趋向于尽早将报道要义告知读者的特点,本文提出了位置信息这一概念,并在此基础之上通过可加函数和可乘函数对Okapi相似比较函数进行改进。文本的分类方面,本文中采用的支持向量机(Support Vector Machine, SVM)的方法有坚实的数学基础,是机器学习领域关注度相当高的一种方法,尤其是在无监督情形下有着良好的鲁棒性,已被成功的应用于模式识别及回归问题的分析。本文对从中新网、新华网等大型网站收集的含有20个主题的14295篇新闻文档分别采用核回归法(kernel regression)、最近邻域方法(nearest neighbor method)和支持向量机法(Linear-kernel SVM、RBF-kernel SVM)等方法进行新事件检测,通过对采用基本NED系统和改进后的NED系统进行实验得出的检测代价系数进行对比,得到三种方法对应的代价系数分别降低了4.9%、7.3%和13.1%。由此说明了NED系统在应用了基于新闻语料特征改进的向量空间模型和采用体现了词汇位置信息的Okapi相似比较函数后,采用SVM方法进行文本分类较之以核回归方法和最近邻域方法进行分类,NED系统的性能提升更加有效。