基于主题模型的短文本分类研究

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:yangsongzhao99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 分本分类作为文本挖掘的分支,得到了广泛的关注和迅速的发展。基于主题模型,针对短文本分类进行研究,选取LDA和BTM主题模型和SVM、Bagging和AdaBoost分类方法进行短文本分类实验,并对实验结果进行评价。
  [关键词] 主题模型;短文本分类;LDA;BTM
  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 19. 098
  [中图分类号] TP311 [文献标识码] A [文章编号] 1673 - 0194(2016)19- 0174- 02
  1 引 言
  随着信息技术的快速发展和网络的广泛使用,互联网中产生的信息显著增加。大量非结构化数据已经成为网络数据的主力军,可以占到总数据量的90%[1],短文本更是在社交网站中随处可见。主题模型作为特征选择的一种方法,常用于文本分类中。使用不同的分类方法,对比LDA和BTM模型对于短文本特征选择的效果。
  2 主题模型
  2.1 主题模型思想
  主题模型是一种层次结构的模型,用概率来表示各层之间的关系,常见的有PLSA[2]、LDA[3]和BTM[4]等,PLSA即潜在语义分析,是最早的主题模型,它使用条件概率描述单词和潜在类别间的关系,并使用最大期望的方法训练潜在类别。
  2.2 LDA模型
  由于PLSA模型的不完备和容易出现过拟合等缺陷[4],Blei等人提出了LDA模型,用概率来表示文档集合层、文档层和词语层之间的关系。
  在LDA模型中:
  (1)每篇文档主题词的个数N~Possion(ξ);
  (2)文档中先验概率θ~Dir(α);
  (3)每篇文档的第n个主题词wn:
  主题Zn~Multinomial(θ);
  主题词wn~Multinomial(wn|Zn,β)。
  所以,LDA模型可以表示为:
  其中P(φ|β),代表主题概率,P(w|φ)P(z|θ)代表主题词概率,P(w|φ)P(z|θ)P(θ|φ)代表文档概率。
  2.3 BTM模型
  BTM是另一种三层贝叶斯结构模型,与LDA不同的是它用“词对”来代替词,从而克服了短文本中词少所带来的困难。BTM和LDA均使用Gibbs抽样方法进行参数估计。LDA的Gibbs updating rules为:
  3 实验数据及评价
  3.1 实验数据及预处理
  实验数据集来源于SODA上海开放数据创新应用大赛公开数据,数据集名称为网格化管理数据,该数据集用来统计城市居民对于市容市貌现象的反映,其中描述这个属性是对反映内容的简单叙述,平均字数少于100,类别是指反映现象所属类别。经过对数据的筛选,最终有988条数据,类别为暴露垃圾、跨门营业和占道无证经营。
  3.2 实验环境
  分词处理:中科院中文分词系统ICTCLAS;
  主题模型:Windows下的JGibbs和Ubuntu下的BTM-master;
  文本分类:Weka中的libsvm、Bagging和AdaBoost方法。
  3.3 实验及结果评价
  选取LDA和BTM为主题模型,使用libsvm、Bagging和AdaBoost分类方法,将它们两两组合,同样的分类方法设置相同的参数,最终进行6次实验,并对实验结果进行评价。
  以精确度(Precision rate)、召回率(Recall)和F值(F-measure)为评价指标,BTM libsvm最高,均为0.967,LDA AdaBoost最低,分别为0.804、0.811和0.795。因此,对于短文本,BTM比LDA有更强的适用性,而对于分类,SVM更适合处理高维数据。
  4 总 结
  从实验结果可以看出,对于短文本的分类,使用BTM作为主题模型,SVM作为分类方法,得到的效果最佳。当然,由于数据集的局限性,实验结果具有一定的片面性,未来的工作可以进一步选取多个实验数据集,以得到更普遍的结论。
  主要参考文献
  [1]Limeng Cui, Fan Meng, Yong Shi, et al. A Hierarchy Method Based on LDA and SVM for News Classification [C]//Proceedings of the 2014 IEEE International Conference on Data Mining Workshop,2014:60-64.
  [2]T Hofmann. Probabilistic Latent Semantic Indexing[C]//Annual International SIGIR Conference,1999.
  [3]Blei D,Ng A,Jordan M. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research. 2003(3):993-1022.
  [4]董文.基于LDA和Word2Vec的推荐算法研究[D].北京:北京邮电大学,2015.
其他文献
实现了GSM/GPRS/EDGE业务量综合分析预测及载频配置系统。系统利用成分分解分析和指数回归、多项式回归(k三次方、k四次方、k五次方)、卡尔曼滤波算法进行动态预测,并通过比较
[摘 要]从目前来看,按照学科大类进行招生的人才培养模式,是高校教学改革中的一个大趋势,而这种人才培养模式能够改善高校的学科专业结构,深化教学体质改革,激发学生的潜在能力,提升其对学习的兴趣,实现按兴趣、按特长选择专业。本文结合大类招生人才培养模式的优点,对其人才培养模式的改革与创新进行研究。  [关键词]高校;学科大类招生;人才培养模式;改革  doi:10.3969/j.issn.1673 -
随着市场经济的发展,职工宿舍不再是只属于医院职工的宿舍,房屋产权和人员居住已发生很大变化,多数为医院职工居住,一部分为房屋出租,另一部分住房职工已对外出售。本文从医
从分析各类业务编码码流的带宽占用入手,提出三网融合业务的带宽规划建议。结合网络的部署与运营现状,分析各类业务的流量规律,探索三网融合业务的流量模型,以更好地保障业务
文章以曲水县茶巴朗村第四自然村为田野调查地点,对该村不同时期家屋的物质建构和空间分割进行调查研究,并以此为例来探究西藏农区家屋物质建构和空间分割的变迁以及家屋空间内
随着经济全球化的发展,企业面临的竞争越来越激烈,这样一来,如何全面地管理与供应商之间的关系,以此减少成本、增加利润,便成为企业相当重要的一个环节。本文针对供应商在物资采购
[摘 要] 由于充放电控制及日常维护存在问题,造成部分阀控式铅酸蓄电池过早损坏,本文详细分析了各种参数对阀控式铅酸蓄电池的寿命影响,采取一些控制措施。使之达到预期效果。  [关键词] 阀控式铅酸蓄电池;充放电;运行;维护  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 21. 061  [中图分类号] F273 [文献标识码] A [文章编号]
首先指出了在金融危机等外在因素和市场本身内在因素影响下,NGN概念、所包含的内容以及发展路径上的变迁,运营商在选择技术方案和投资上将更谨慎且更注重实效。其次,以各国主要