论文部分内容阅读
微博是近年新兴的网络媒体传播平台,它具有内容简短、传播速度快、用户众多等特点,而对于微博文本的情感分析是近年来数据挖掘的热点之一,具有重要意义和价值。用户在实施网上购物等行为时,都希望从微博上获取关注产品的评价信息。本文针对中文微博产品评价信息挖掘中存在的文本格式不规范、网络用语大量使用、成分省略等文本特点,及标记数据稀缺、手工标注困难等分类问题开展了如下几项研究工作。 针对中文微博的文本特点,提出了一种情感评价单元构建方法。该方法分别构建了情感评价词、副词和评价对象词典,并制定了相应的成分补充和单元构建规则,不仅保证了提取信息的全面性和准确性,还在精简词集、提高效率方面做出了尝试。实验表明,该方法的准确性比基于句法路径的相关方法更高。 针对微博文本的分类问题,提出了一种基于图半监督学习的分类算法LP-SVM。该算法将标签扩散过程与支持向量机相结合,不仅实现了少量标记样本的分类,而且避免了图半监督学习不产生分类器,对于新数据只能重新训练的问题。结合该算法对微博产品的情感评价单元进行特征提取和半监督分类。实验表明,该算法的表现优于传统及直推式的支持向量机算法。 结合实际应用,提出了一种基于评价分类的微博产品推荐算法。该算法利用产品评价分类的结果,并结合微博的文本特征,制定了微博产品推荐指标及其计算方法。实验最终得到的微博产品推荐方案与相关网站用户评价结果基本一致,充分验证了该算法的准确性。