基于NUTCH的中文新闻事件自动分类系统研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:ding7881
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的蓬勃发展,从异构的、有噪声的海量数据中获取所需要的分类内容,评判互联网热点事件,关注最新的热点事件的动态,不断成为搜索引擎、各类门户及SNS社区吸引用户、制定营销方案等所需要首先解决的问题。谁掌握了确切的信息,谁就先一步掌握了事件发展的方向,在制定营销方案时就会把握时代、用户趋势,在竞争中处于领先的地位。本文正是针对上述需求所撰写的,力图解决分类内容获取、热点事件判定及热点事件获取等几个方面的问题。由于本文所论述的内容是基于准实时互联网信息的,所以本文在论述时还会解决互联网信息噪声的问题。   本文基于NUTCH的中文新闻事件自动分类系统研究,主要分为三个部分:⑴背景现状分析。重点介绍当前有关中文文本自动分类的分类方法、热点事件的理论分析现状及系统支撑技术。⑵理论阐述及相关特征分析。首先简单而创新的使用了基于源代码标签规则的网页噪音去除算法清洗和过滤了互联网上的网页得到网页的文本内容,并进一步论述了相关的中文分词、KNN分类理论、极度相关新闻事件文档的判定等铺垫性内容。通过构建新闻事件历史语料库,对历史语料库进行分析获得事件的相应特征:主要有时间发展特征及词特征,并综合使用分词技术、分类理论等建立了评价热点事件的核心指标,根据核心指标建立了一套分析、判定、获取热点事件的流程框架。从而构建出了分类及热点事件获取的两大核心体系。⑶系统设计、实施及实验评价。这一部分集中在第四、五章,重点论述了本文原型系统的架构及系统核心模块类的设计,主要论述了系统中使用的各种开源框架及技术,分析了各层的功能,设计了各层的核心类。第五章主要是对于系统的实施以及通过实验检验系统的有效性。最后本文指明了该系统的改进和发展方向。本文的成果和意义在于建立了EF及EI指标,综合了多种理论方法,如命名实体及KNN自动分类等,并将其运用于热点事件的判定上,通过对自动分类与热点事件发现整合,实现了一个完整的自动分类系统。
其他文献
中国自然垄断行业具有自然垄断和行政垄断的特征。从20世纪90年代开始,中国经济体制逐步从计划经济体制向市场经济体制转型,经济体制改革的重心是打破传统的计划经济体制下的政
在学生学习的所有环节中,作业是检验学生学习效果的直接手段,但是,一直以来,许多老师在作业设计这一环节缺乏足够的重视,经常都是千篇一律或者不加区别,这就导致了学生厌烦作
报纸讲版面,辟专栏,电台编节目,设专题,形虽有别,意则大同,都是以提供新闻为主的社会舆论工具。电台的节目设置是一项关系到“扬独家之优势”的重要工作,也是我们广播新闻工
随着全球化与世界经济的不断发展,企业之间的竞争日益激烈,客户的需求日益个性化和多样化,越来越多的企业开始采用大规模定制的生产方式来为客户提供产品和服务。客户需求是大规
近年来,随着我国对基础设施建设投入的加大,水利水电工程建设也迎来了前所未有的发展机遇。随着水电项目的不断增加,水电项目的管理模式成为了水利行业的重要研究课题。水利工程
小李同志: 你的来信收到了。你说,虽然你到县广播站工作才一年多,但已爱上了广播工作,深深感到播音岗位的光荣和责任重大。小小话筒,连着千家万户;静静的播音室,反映着沸腾的
全国晚报昆明会议交流的经验告诉我们,在建设社会主义精神文明的崇高事业中,晚报日益成为城市人民生活中不可缺少的精神食粮。在传播先进思想,转变社会风气,培养人们的道德
西北五报将举办新闻学术讨论会最近西北五省(区)报——陕西日报、宁夏日报、青海日报、新疆日报、甘肃日报的代表在甘肃日报聚会,一致商定于一九八○年春季在兰州联合举办西
经~(60)Coγ射线慢性照射,诱发了一种矮秆水稻突变体。该突变体与一个大穗型品种杂交,获得了一些使阳光在冠层内分布更为有效的半矮秆植株。对这些植株同几个推广品种及亲本
进入21世纪以来,随着全球化进程的加快和世界经济竞争的加剧,知识型员工逐渐成为企业竞争的关键。在企业中知识型员工如何产生较高的绩效,影响其绩效的因素有哪些,这引起了中外学