基于朴素贝叶斯的Web文本分类及其应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:zwf1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:Web文本分类在网络信息过滤、信息推荐等方面有广泛的应用。介绍了Web文本分类的基本理论与方法,结合贝叶斯分类算法,对文本分类语料库的数据进行具体的分类实验并进行分析讨论,取得了一定的效果。
  关键词:数据挖掘;朴素贝叶斯;文本分类
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)30-0220-02
  Web Text Classification and its Application Based on Na?ve Bayesian
  BAO Xiao-bing
  (Chizhou College Department of Mathematics and Computer Science,Chizhou 247000,China)
  Abstract:Web text classification has been widely used in network information filtering, information recommendation and so on.Introduces the basic theory and method of Web text classification,The data of the text classification corpus are classified and analyzed with Bayesian classification algorithm,Achieved a certain effect.
  Keywords:Data mining; Na?ve Bayesian;Text classification
  隨着计算机以及互联网技术的快速发展,对于拥有海量数据的网络世界,蕴含着巨大潜在价值的知识,人们迫切需要从这些海量的数据中获取有用的知识和信息,希望能对这些海量的数据进行自动分类、组织和管理。而这些知识有很多是以Web文本的形式存在的,如何自动、准确、高效地进行Web文本分类是文本挖掘的重要的研究内容之一。
  信息检索被认为是Web文本挖掘的前身,但是位于Internet上的信息,一方面规模巨大,并且缺乏结构化,对于这些非结构化或半结构化的复杂的Web数据,在做文本分类之前,还需要对获取的文本进行特征提取和表示,然后再使用文本分类技术进行快速、自动的分类。
  本文主要分析和讨论了基于朴素贝叶斯(Na?ve Bayesian)方法的Web文本分类的相关理论,并使用中文自然语言理解平台[1]上的文本分类语料库,进行具体的实验分析。
  1 Web文本分类方法
  1.1 Web文本分类概述
  文本分类是在预定义的分类体系下,根据文本的特征,将给定文本归类的过程,而文本的特征涉及对文本的理解,因此涉及众多的学科领域。Sebastiani用下面的数学模型描述文本分类。
  定义函数[Φ:D×C→{T,F}],其中[D={d1,d1,…,dD}]表示待分类的文本文档,[C={c1,c1,…,cC}]为预定义分类体系下的指标集。设[T]和[F]值表示为二元组[],分别表示文本[dj]属于类[ci]和文本[dj]不属于类[ci]。在文本分类中涉及两个最重要的问题:文本表示与分类器设计。那么对于来自网络的Web文本分类系统可以简单地表示为图1。
  1.2 Web文本表示
  Web文本和其他文本类似,由文字、词语和标点符号组成,要使用计算机来表示文本,首先需要选择一种好的表示方式,并且要求该表示方法能尽可能准确地反映文本的主题、内容和结构等。
  当前比较常见的表示方法是由G.Salton等人于60年代末提出的向量空间模型(VSM)。在VSM中,用由特征二元组组成的特征向量表示文本[dj],记为[dj=(t1,ω1j),(t2,ω2j),…,(ts,ωsj)],其中[(tk,ωkj),1≤k≤s]表示特征[tk]的二元组,[ωkj]表示文本[dj]中特征[tk]的权重,[s]为特征集合的大小。那么对文本的比较、分类等操作就可以转换成特征向量组间的操作,使问题变得简单且易于实现。
  1.3 Web文本特征选择及特征权重计算方法
  使用VSM模型对Web文本进行文本表示,得到的特征向量维数一般会非常高,为提高性能,需要对特征向量进行特征选择以降维,那么面临的问题是,应该选择哪些特征,以及应该赋予这些特征多大的权重,以希望经约简的特征向量更好地体现文本的内容、主题等?当前比较常见的方法有:信息增益(IG)、卡方、文档频度(DF)、互信息(MI)、特征强度(TS)等。本文主要使用文档频度的方法进行讨论,该方法是最基本且最简单的一种方法,统计在多个文档中出现特征[tk]的次数,次数越多的特征被认为越关键,故被保留。
  文本特征权重的计算方法常见的有布尔权值、绝对词频(TF)、倒排文档频度(IDF)、TF.IDF权值、熵权值等,本文使用绝对词频[tfij]衡量文本特征权重。
  对于Web文本,在文本表示之前,需要对文本进行分词。分词之后的文本词表中包含很多对文本特征表示无意义的词,还需要对其进行约简,去除虚词、数量词等不能体现文本特征的词。而对于重复出现的词,会有两种情况:一种是通用的名词、动词,不具特征性,应去掉;第二种是恰好能反映文本的特征的词,应该保留,并且统计记录其频数,用VSM模型进行表示。然后再使用文本特征选择及特征权重计算方法对建立的VSM模型进行优化,得到结构化的数据,为下一步分类做好准备。
  2 贝叶斯分类算法基本理论
  贝叶斯分类算法是基于统计学的方法,可以预测类成员关系的可能性。实践表明贝叶斯分类算法有非常高的准确率并且计算速度较快。贝叶斯分类算法基于概率论中的著名的贝叶斯定理[2]。   定理1设样本空间[S],[n]个互斥事件成为[S]的一个划分:[S=A1,A2,…,An],[AiAj=0,i≠j],[X]是[S]中任意一个事件,则有:
  [P(AiX)=P(XAi)P(Ai)P(X)]
  设[D]是训练元组集(包含类标号),其中的元组用[n]维向量[X=x1,x2,…,xn]表示,属性集记为[DA=A1,A2,…,An]。设有[J]个类[C1,C2,…,CJ],根据贝叶斯定理,分类算法将预测给定元组[X]属于的类。分别计算后验概率[P(CiX)],找到最大值,其中先验概率[P(Ci)]通过学习训练元组得到,考虑到[P(X|Ci)]的计算是复杂并且开销非常大的,故做了类条件独立的朴素假设,即是
  该分类算法被称为朴素贝叶斯分类[3](NBC)。
  2.1 Web文本分类数据的预处理
  为实验的方便,使用中文自然语言理解平台[1]由复旦大学提供的文本分类语料库,包含有财经、科技、教育、电脑、房产、人才、汽车、体育、卫生、娱乐10个类别共951个文本。对所有的951个文本的每个文本分词,分别生成相应的文本词表,如图2所示。
  然后进行去词约简,去除虚词、数量词等不能体现特征的词,去除那些不具有特征性但却重复出现的通用的名词、动词,记录反映文本特征的词及词频,每个文本可以表示成一条VSM模型元组,最终所有的文本处理完成后生成一个矩阵,称为词频矩阵,最后一列加上类属性,本实验词频矩阵是[951×13353],如表1所示。再进行降维处理,最终的词频矩阵部分如表2所示。
  3 应用实验
  3.1 Web文本分类
  为使用贝叶斯算法对文本分类,首先对词频矩阵进行离散化处理,离散化规则如表3所示。
  最后,对表2的词频矩阵[D951×252]進行数据离散化处理的结果如表4所示。
  实验的硬件平台:Pentium E2160 1.8GHz处理器,1G内存;开发环境:Visual Studio 2005,使用盘古分词[4]的C#开源代码。使用朴素贝叶斯算法进行学习、分类,实验结果如表5所示。
  实验表明,对非训练数据的分类准确性不高,这说明该数据集的高稀疏性会使所构建的分类器的泛化能力还不够好,还有待提高。
  4 结论
  针对来自网络的Web本文,使用基于朴素贝叶斯的分类算法对其进行自动分类,本文做了如下工作:1)概述了Web文本分类的相关方法以及贝叶斯分类理论;2)通过具体的实验,给出了Web文本分类的详细过程,包括分词、约简、降维、训练、分类等,实验结果较好;3)针对高维稀疏数据的非训练数据分类效果还不够理想,还有待进一步研究。
  参考文献:
  [1] 中文自然语言理解平台[DB/OL].http://www.nlp.org.cn/
  [2] 李贤平.概率论基础[M].北京:高等教育出版社,1997.
  [3] Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].范明,孟小峰译.北京:机械工业出版社,2007:201-206.
  [4] 盘古分词开源代码[CP/OL].http://pangusegment.codeplex.com。
  [5] 郑庆华,刘均,田锋,等.web知识挖掘:理论、方法与应用[M].2010:3-5.
  [6] 包小兵,翟素兰,程兰兰.基于信息熵加权的局部离群点检测算法[J].计算机技术与发展,2012(7).
  [7] 邵昌昇,楼巍,严利民.高维数据中的相似性度量算法的改进[J].计算机技术与发展,2011,21(2).
其他文献
1946年第一台计算机的问世,拉开了信息化产业的序幕,随着经济的发展和科技的进步,电脑技术越发的得到人们的重视,其发展速度之快,涉及领域之广已经是前无古人后无来者的存在
摘要:女子体育是近代中国体育发展进程的重要组成部分。从我国女子体育的产生之时起,就承担了较为强烈的政治使命。在中国社会的近现代转型中,女子体育承载了明确的国族命运的政治意向,更多的是在进行强国保种的身体规训。主观上强国保种的政治意图对女子体育的发展起到了推动作用,这也在客观上刺激了女子脱离人身依附的主体性意识增强,带来了突破传统的身体展示,主要表现在多元体能的扩展和对西方体育健康美的主动接受和追求
摘要:体积小、操作简单、满足多种场景使用的视频监控系统,是获取更多安全信息的有效途径之一。本文运用嵌入式系统、图形采集、图像处理及图像传输等技术,使用ARM处理器及外围设备组建信号处理单元,设计了数据推送单元的硬件电路,搭建Camera数据推送单元所需的开发环境把处理过的图像信号推送到Linux终端的Qt应用中展示。所设计的系统,提高了稳定性,具有一定的实际意义。  关键词:视频监控系统;数据推送
摘要:针对MapReduce计算框架下实现数据表等值连接时不能很好地处理数据倾斜的问题,详细分析了数据倾斜带来的任务负载不均匀问题和解决思路,结合两表之间传统连接算法和广播连接算法思想,提出将倾斜数据和非倾斜数据区别对待的分区连接算法。实验结果表明,提出的算法很好地解决了数据倾斜问题下任务负载均衡问题,有效提高了两表之间等值连接查询效率。  关键词:数据倾斜;连接;MapReduce;分区  中图
针对白马庙构造须家河组须二段在波阻抗反演较难区分泥岩与储层砂岩的情况下,充分利用现有测井资料,运用拟声波技术将声波中含有的地层低频速度信息同对地层的岩性变化很敏感的
本文基于NDIR气体分析仪的气室设计,在传感器设计过程中,考虑到检测误差的影响因素,分析传感气室结构的基础上,探讨了光锥的概念,并针对设计实际的需要,对光锥进行了设计,探
提出了一种变有害奇异值为更有利于横向储层预测有效信息的提取方法———瞬空参数法(SIPA),并与时间域中基于复数道分析的常规瞬时参数法进行了对比。瞬空参数法是通过将地震
摘要:目前智能家居控制系统中的家电设备大多采用红外信号控制,设备相互之间不能通信,这阻碍了设备的无线化集中控制。针对这种情况,提出一种基于Zigbee RF4CE的智能家居控制系统,具有低功耗、远视距、允许设备间双向交互等优势。系统由RF4CE网络、家庭网关、控制终端三部分组成。RF4CE网络基于MC13233硬件结合RF4CE协议栈实现家电设备无线组网。经验证,该系统可有效实现家电设备的无线集中
物联网的快速发展带来了人才需求的大量增长,高职院校正是培养物联网产业基础应用型技能人才的理想摇篮。但必须认识到物联网的应用性、综合性很强,与我们以往人才培养模式存在着很大的区别,尤其是实验室建设面临各种难题,相应的物联网实验室的建设目标、关键技术、建设思路、框架、功能等都是培养方案中急需要解决的问题。该文对高职物联网实验室建设进行了初步分析与论述,为其深入研究和建设提供参考。