基于W-BTM的短文本主题挖掘及文本分类应用

来源 :山西财经大学 | 被引量 : 0次 | 上传用户:yiwangcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和各类社交网站以及电子商务的快速兴起,以文本信息为代表的非结构化信息大量涌现,从中挖掘出有价值的信息变得越来越重要,但同时复杂的语义也使得信息价值的提取变得越来越困难。尤其是短文本信息,其稀疏性和不完整性也给文本挖掘带来了新的巨大挑战。因此,对于文本信息挖掘的研究逐步转向了对于短文本信息挖掘的研究。BTM是一个针对短文本的主题挖掘模型,在处理短文本的稀疏性和不完整性问题上相对于其它主题模型有很大的优势。但包括BTM模型在内的现有文本挖掘模型,模型中都没有特殊的参数设置等对其进行处理,只是在数据预处理时加载停用词表对其进行删除操作。而不同的语料选择会有差异性,千篇一律的使用同样的停用词表并不具有科学性。因此,对于不同的语料集,应该找出可以反映其文本特征的停用词。基于对上述短文本特点和停用词处理的考虑,以差异系数作为权重模型,表示文本中词语的权重,然后将其作为BTM模型的一个参数形成最终的W-BTM模型,从而消除短文本和停用词对文本主题挖掘的影响。模型中使用吉布斯抽样对参数进行估计,从潜在变量的先验分布中抽样,对后验参数进行估计。最后将模型应用于当当网图书简介数据,使用支持向量机对W-BTM模型产生的结果矩阵进行分类,并对比不同模型的分类结果,证明W-BTM模型的优越性。W-BTM模型在整个语料集中寻找“词对”的前提是“词对”中每个词在整个文档中的权重即差异系数已知。在这种情况下,“词对”有了更深层次的含义,它不再只是单一的表示文档中同时出现的两个词语,而且还代表着词语本身的性质,即是否为停用词。这就可以消除停用词的不恰当选择对于文本信息挖掘准确性的影响。为了验证W-BTM的有效性和科学性,以LDA模型和BTM模型做对比进行文本分类实验和应用,从主题挖掘和文本分类两个角度对整个的实验结果进行评价,最终证明了W-BTM模型的分类效果优于LDA模型和BTM模型。本文的创新之处如下:(1)对于停用词的处理,抛弃传统的选择停用词表并将停用词直接去除的方法,而是使用权重模型取而代之,使得文本挖掘的结果更加科学和准确。(2)将权重模型与BTM模型相结合,形成新的主题模型W-BTM,既可以用于短文本的分类,解决短文本的稀疏性问题,也弥补了数据预处理时停用词处理的漏洞。(3)将W-BTM模型应用于当当网图书简介分类,赋予模型更加实际的现实意义。通过对数据不平衡性的处理、W-BTM模型的使用以及支持向量机对于文本-主题矩阵的分类,最终验证了W-BTM模型的有效性。针对分类结果,将W-BTM模型与LDA模型和BTM模型进行对比,验证了W-BTM模型的优越性。
其他文献
在国家绿色发展理念的大背景下,资源型地区一直探索绿色发展之路,找寻推动资源型地区经济、社会、文化可持续发展的路径,但资源型地区普遍的问题是科技水平不高、自然环境所面临
报纸插图照片是报纸固有的和最基本的一种照片运用形式。翻开报纸的历史,我们可以了解到:报纸在最初运用照片的时候,是首先从插图照片开始的。后来报纸照片的画刊,各种栏目
十八届四中全会后,检察机关对行政违法行为进行监督进入了全新的发展时期,但其监督路径及程序设计之研究,当前理论界鲜少涉及,故对该领域进行探讨具有紧迫性和很大的现实意义
迷信是人类进步的大障碍.现在我国人民在大跃进的形势下,正在破除一切迷信,展开思想大解放的运动.这个时候,我们人民的新闻工作者必须迎头赶上大跃进的形势,站到思想解放运
在308.15K下,研究了表面活性剂琥珀酸二(2-乙基己基)酯磺酸钠(Aerosol-OT,简称AOT)的浓度和水的含量不同时,溶解的CO_2对反胶束溶解牛血清蛋白(BSA)的性质和异辛烷中AOT反胶
随着迅猛发展的信息技术与互联网的演化、融合,社交媒体成为了新一代网络环境下备受瞩目的热点。社会化问答网站作为社交媒体环境下信息资源提供与分享的平台,它通过良好的开放
期刊
由于计算机技术、网络技术和通信技术的快速发展,互联网得到了广泛的应用。互联网用户的需求不单单局限于追求个人体验,更是将更多的注意力放到知识的共享和交流之上。自此,
在iPhone 5之前,苹果一直坚守3.5英寸阵地,将“单手操作”理念贯彻始终。然而,随着4G网络的普及,越来越多的消费者将手机作为了移动影院、掌上游戏机,此时小屏幕的显示面积就不够看了。于是,智能手机屏幕就一路增长,时至今日没有6英寸都不好意思称自己为大屏手机。  屏幕变大的后遗症  其实将手机屏幕变大很容易,但困难的是如何弥补更大尺寸屏幕所带来的续航压力(图1)。于是,大屏手机+超大电池的组合
移动医疗服务因其极大的便利性,在医疗行业的发展中存在重要的潜在价值。然而作为一项新兴的信息技术,在被用户接受的过程中,往往会遇到很多因素的影响。研究移动医疗服务用