论文部分内容阅读
伴随着互联网的蓬勃发展,从异构的、有噪声的海量数据中获取所需要的分类内容,评判互联网热点事件,关注最新的热点事件的动态,不断成为搜索引擎、各类门户及SNS社区吸引用户、制定营销方案等所需要首先解决的问题。谁掌握了确切的信息,谁就先一步掌握了事件发展的方向,在制定营销方案时就会把握时代、用户趋势,在竞争中处于领先的地位。本文正是针对上述需求所撰写的,力图解决分类内容获取、热点事件判定及热点事件获取等几个方面的问题。由于本文所论述的内容是基于准实时互联网信息的,所以本文在论述时还会解决互联网信息噪声的问题。
本文基于NUTCH的中文新闻事件自动分类系统研究,主要分为三个部分:⑴背景现状分析。重点介绍当前有关中文文本自动分类的分类方法、热点事件的理论分析现状及系统支撑技术。⑵理论阐述及相关特征分析。首先简单而创新的使用了基于源代码标签规则的网页噪音去除算法清洗和过滤了互联网上的网页得到网页的文本内容,并进一步论述了相关的中文分词、KNN分类理论、极度相关新闻事件文档的判定等铺垫性内容。通过构建新闻事件历史语料库,对历史语料库进行分析获得事件的相应特征:主要有时间发展特征及词特征,并综合使用分词技术、分类理论等建立了评价热点事件的核心指标,根据核心指标建立了一套分析、判定、获取热点事件的流程框架。从而构建出了分类及热点事件获取的两大核心体系。⑶系统设计、实施及实验评价。这一部分集中在第四、五章,重点论述了本文原型系统的架构及系统核心模块类的设计,主要论述了系统中使用的各种开源框架及技术,分析了各层的功能,设计了各层的核心类。第五章主要是对于系统的实施以及通过实验检验系统的有效性。最后本文指明了该系统的改进和发展方向。本文的成果和意义在于建立了EF及EI指标,综合了多种理论方法,如命名实体及KNN自动分类等,并将其运用于热点事件的判定上,通过对自动分类与热点事件发现整合,实现了一个完整的自动分类系统。