论文部分内容阅读
近几年来电子商务产业发展势头迅猛,由之产生的问题也日益凸显,一个重要的问题是电子商务产品质量。一些企业为了追求短期经济效益,生产假冒伪劣产品。风险舆情数据可以为质监部门解决电子商务产品质量问题提供风向标,从而实现电子商务产品质量问题“准确监测、智能预警”。电子商务产品信息和评论作为风险舆情数据的一种,能够集中反映出电子商务产品质量问题的趋势走向,具有极大的参考价值。本文从文本分类的角度入手,从数据挖掘领域出发,结合文本表示模型、特征降维、分类算法的设计和选择等方面展开研究,完成了以下工作及研究成果:(1)构建电子商务产品信息和评论文本表示模型。产品信息和评论作为一种短文本,结构复杂,计算机无法理解其语意,所以需要通过分词、去停用词等操作将其转化为结构化模型。为了方便统一地表示产品信息或评论内容,引入VSM空间向量模型。模型中每一列表示一个样本,每一行表示一个特征值,用0或1表示特征值的存在与否,那么所有非0的特征值就组成一条完整的文本信息,以便计算机识别存储。(2)对电子商务产品信息和评论文本特征集进行降维,提高分类效率。即使去除标点和停用词,一条文本内容包含的特征值依然很多,整个文本内容特征集的规模会极大影响分类算法的执行。IG信息增益算法通过对特征值信息熵的排序剔除没有贡献的特征,可以对特征集进行有阈值的选择。(3)通过构建快速自编码神经网络,使RELM能够快速的计算隐含层节点权重,从而实现特征降维。原始的RELM正则化极限学习机常用于数据分类,将自编码神经网络的原理应用于RELM,使得改进后的RELM实现特征提取的功能。自编码神经网络继承了RELM计算快速的优点,有效提高特征提取速度。(4)选择分类算法对电子商务产品质量信息和评论数据进行分类。支持向量机在处理非线性数据方面的优势使得实验取得了较好结果,但是相对RELM,其分类速度相对较差。实验结果表明,RELM在分类效率要优于SVM算法,分类准确率与SVM相当。