论文部分内容阅读
随着现代科技的发展与进步,有关产品评论的意见挖掘的发展已经成为一个新兴的研究领域,无论在国内外,都属于比较热门的研究课题。作为产品评论的意见挖掘以及其他文本处理的重要辅助手段,产品有效评价句的提取方法是文本的研究重点,其具有重要的意义。中国市场广阔,拥有世界最多的网民和最大的网购群体,创造了巨大的产品评价数据库。对产品评价的研究,在研究消费者满意程度,研究消费者消费习惯,新的消费增长点等方面都有着重要的意义。本文采用机器学习等领域的技术方法,通过特征提取特征选择,机器学习方法,对产品评论的有效评价句提取做了较为深入的研究。基于特征的意见挖掘的目的是从产品的评论中提取出产品的评价反馈。这在之前也有类似的工作,提出了很多基于统计以及基于模型的方法。然而,当网络评论数据是中文的情况下时,其提取的结果总是不太令人满意。经过统计分析发现,部分方法在某类句子中达无法正确地抽取评价对象和评价词,而这些句子大多数并没有包含有价值的评论。因此,本文的核心思想就是,滤掉数据集中无效的评价句,从而获得有效评价句集合。本文将获取有效评价句的问题通过文本分类的方法来解决。首先通过对所有评论数据的深入分析,从文本的组成单元——词与文本的结构两个角度入手,挑选了关键词与模式两个具有代表的数字特征,作为产品评价文本分类的分类特征;然后选择了BP神经网络作为分类器来探索产品评价数据中有效评价句提取的方法。本文使用化妆品行业实际获得的5000多条评论作为数据集,实验表明,使用这两个特征和BP神经网络分类得到了较为满意的结果。产品评论数据的分析与处理对电商提高服务,厂家提高产品质量,获得更大发展空间,价值很高。通过对产品有效评价句的获得之后,为进一步的产品评价的意见挖掘工作等提供了便利。因此,研究基于产品评价数据的有效评价句提取是一项非常重要而有意义的工作。