论文部分内容阅读
电子商务近些年的迅猛发展,人们选择线上购物平台的越来越多,淘宝网作为最大的C2C电子商务平台拥有庞大的客户群,人们通过淘宝网可以在短时间内获得千里之外的商品而无需实地购买。这在一定程度上,影响了人们的购买行为,人们可以通过网络进行交流,缩短了人与人之间的距离,这使得人们在进行购买行为前习惯搜索该商品或者服务的相关评价信息,消费者在线评论文本的价值则被挖掘出来。此外商家也可以从评论中获取商品信息加以改进提升,那么用户评价的进一步提取有效信息就成了首要问题。在现阶段的研究中,不同学者对于情感分类进行了多方面多角度的研究,情感词汇以及否定词特征、特征级别的领域特征集合的情感挖掘等一系列观点和方法相继提出。但是针对于评论文本碎片化、短语句的特性,往往传统的文本分类技术不太适用于此。而对于评论文本的研究中包括关键词分类、情感倾向分类等等,提出了一系列的应用研究,提取文本当中的关键词或者表达情感的情感词汇,通过分析词语的褒贬程度从而确定文本的情感倾向。针对这些问题,本文提出了基于语义的评论文本分类方法。挖掘评论文本中的情感倾向词汇,通过情感词汇的语义关系进行概念间分类。利用语义分类方法,基于《知网》和《同义词林》的词汇间关系构建初始语料库,在语料库中,确定种子词汇的情感倾向性,再通过其他词汇与种子词汇间概念关系从而确定其他词汇的情感倾向,从而达到评论文本语义分类的目的。语义褒贬倾向的研究为文本分类、文本过滤等自然语言处理的研究提供了新的思路和手段,将语义分类应用到淘宝评论文本中去同样也会是一种趋势。通过语义分类的标准将评论文本进行重新分类。改变原有的手动选择“好评”、“中评”、“差评”改为自动识别“褒”“中”“贬”“未评价”的分类标准。本文提出淘宝评论文本语义分类的方法,将评论文本进行分词处理,标注词性,提取观点词;通过语义进行分类后的文本会发现更加直观、清晰,从而验证语义分类的可行性。