基于HMM的教育新闻抽取与分类研究

被引量 : 0次 | 上传用户:fei000chong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学技术飞速发展的时代,网络已成为人们生活中一个不可或缺的部分。网络承载了巨大的信息量,面对这些海量的信息,如何从中快速有效地选择出用户感兴趣的信息内容是信息检索中的一个重要问题。有效信息的筛选可看作是Web信息抽取和分类的过程。本文设计了一个基于隐马尔可夫模型的教育新闻网页信息抽取与分类系统,主要实现了网页主题信息抽取、特征选择与提取、文本分类等功能,并将分类结果存储在结构化的数据库中,为教育研究与教育实践管理提供信息支持服务。首先,介绍了Web信息抽取和文本分类的概念,对常见的技术做了分析比较,并给出了结果的评价方法。然后重点介绍了隐马尔可夫模型及其主要算法。接着,在分析教育新闻网页的结构特征的基础上,提出了基于隐马尔可夫模型的教育新闻网页信息的抽取方案。先对网页源文档进行部分噪音过滤,净化网页。然后,采用最大字符串匹配算法获取新闻标题,并进一步定位新闻主题内容。最后,利用隐马尔可夫模型对粗略定位的主题内容进行状态标注,删除标记为“噪音”状态的信息,即可得到主题信息。然后,针对教育新闻文本的分类问题,设计了可用于进行分类的隐马尔可夫模型,并分析了其可行性。结合词频反文档频率和卡方计算选择出特征词,并用Apriori算法进一步挑选出具有强关联性的特征词组。计算词、词组与文本类别的相关度并选择相关度最大的类别作为当前文本的类别。最后,实现了基于隐马尔可夫模型的教育新闻网页信息抽取与分类系统。从网上下载900多篇网页和3000篇文档用于测试系统。实验结果表明,隐马尔可夫模型可应用于网页主题信息抽取及文本分类,并且可取得较高的抽取与分类精度。
其他文献
城市燃气管道在发生泄漏导致火灾爆炸事故时,在空间某点形成的风险,不仅与泄漏量、泄漏时间有关,还与空间有无障碍物、泄漏环境等因素有关。基于物理场经典的场理论,定义城市
目的:分析通州区2009年流感病原学监测结果,了解流感病毒优势株的亚型变化和流感的流行趋势。方法:采集流感样病例咽拭子样品,用RT-PCR法进行核酸检测和型别鉴定,同时做病毒
随着我国科技的不断进步和经济水平的逐渐提高,更多的家庭愿意在如何提高自己生活品质上进行必要的投入,智能家居控制系统应运而生。所谓的智能家居就是指利用计算机、互联网
<正>忆往昔辉煌忆往昔峥嵘岁月,看今朝发展更辉煌。翻开老一辈无产阶级革命家的回忆录,那些壮怀激烈的战斗故事和英雄气概深深地感染着我们,其中对迫击炮战斗威力的描述也令
对悬浮聚合法生产的PVC树脂所用分散剂做了介绍 ,并与国外同类产品做了比较 ,有助于了解国产分散剂的现状与发展
就海绵城市建设的重要性、海绵城市道路设计要点、并以某城市主干路建设为例,阐述了海绵城市(水弹性城市)理念在道路建设中的作用,为打造生态城市,解决城市蓄水问题具有深远
为了解决高应力大变形节理软岩巷道支护控制难题,本文以贵州木孔煤矿+600 m运输大巷作为研究对象,进行现场调查原支护巷道围岩变形情况,分析围岩体物理力学性质,测定矿物成分
较为详细地介绍了漆酶常用的定性和定量分析方法,并阐述了漆酶在织物染料脱色中的应用.漆酶是一种含铜的多酚氧化酶,按其主要来源分为漆树漆酶和真菌漆酶两大类.研究表明,漆
随着经济全球化的日益加剧以及信息时代的到来,工作领域发生了重大变化,对劳动者的技术和知识水平要求越来越高。进入21世纪之后,美国在劳动力和经济发展领域出现了许多转折性的
基层政府作为基层公共服务的主体,在行政体制改革中加快基层政府职能转变,进一步简政放权,提供更加贴近公众实际需要的公共服务,已成为基层服务型政府转型的共识。如今,“互联网+”深刻影响和改变着我们的生活、工作,它的触角已经触及世界经济、政治、文化等各个领域,颠覆了政府以往的服务理念,不断革新着政府的服务模式和办公手段。当今世界面临知识爆炸、信息爆炸,对于我们来说,互联网不仅是一种科学技术,更多的是一种