基于集成学习的短文本聚类

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wyattwong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络购物越来越受广大群众的青睐,成为人们日常购物的主流方式。与此同时,网购平台上产生了海量关于商品的评论文本数据。而商品评论中包含着大量潜在的商品信息和顾客满意度信息,企业可以从中挖掘出实际用户所关注的产品的主要特征,发现不同类型用户的重要特征,然后根据不同用户提供不同优惠政策,改进产品的设计,提高核心竞争力,以及追求更高的利润。因此如何有效对评论文本进行信息挖掘对于企业来说至关重要。由于评论文本没有已知的标签,且篇幅较短,使用传统的文本挖掘方法,即对短文本采用单一的聚类分析方法,得到的聚类结果往往不尽人意。在数据挖掘的分类问题中,集成学习可以通过多个单一分类器的组合来提升分类器的性能。因此,本文将以联想公司的一款笔记本电脑的评论文本为例,将集成学习的思想应用到聚类分析中,来增强短文本聚类的效果。本文首先使用Python软件从天猫商城上爬取联想电脑官方旗舰店的一款笔记本电脑的用户评价文本,共3840条,然后对评论文本进行无效值删除、中文分词、停用词过滤以及文本数值化表示,这一系列的数据预处理过程。鉴于短文本的高维性会带来维度灾难问题,本文后续对数据进行了特征提取,以及利用对比分析法选取合适的特征降维算法对评论文本进行特征降维处理。然后基于集成学习的思想,对由K均值聚类、合成聚类和BIRCH这三种聚类算法得到的3个聚类器进行集成,构建最终的聚类分析模型,最终将1765名发表有效评论的联想笔记本用户划分为两类,第0类用户更注重笔记本电脑的外观参数,为外观型用户;而第1类用户更加注重笔记本电脑的性能与配置,为性能型用户;这两类用户均重视商品的服务质量。接着对两类用户的评论文本及用户数比重进行可视化展示,挖掘与分析出更多关于两类用户的特征。最后结合文本聚类结果,从联想企业的产品营销策略与产品更新设计这两个角度提出了相应的建议与策略。
其他文献
随着近年来新课程改革的不断推进,对于教学质量的要求已经不单单停留在提升学生分数的单一层面上,社会各界和教育部门越来越重视学生综合素质的发展,在这一教学环境下,体育教
矿床位于吐鲁番市西北一带,南东距吐鲁番市约80 km,西距乌鲁木齐市约168 km,临近矿床有孔雀山铜矿、大河沿磁铁矿等。大地构造隶属天山兴蒙造山区(Ⅰ级)-准噶尔-吐哈地块(Ⅱ级)-