基于中文微博的产品评价分类及推荐算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:wuyan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是近年新兴的网络媒体传播平台,它具有内容简短、传播速度快、用户众多等特点,而对于微博文本的情感分析是近年来数据挖掘的热点之一,具有重要意义和价值。用户在实施网上购物等行为时,都希望从微博上获取关注产品的评价信息。本文针对中文微博产品评价信息挖掘中存在的文本格式不规范、网络用语大量使用、成分省略等文本特点,及标记数据稀缺、手工标注困难等分类问题开展了如下几项研究工作。  针对中文微博的文本特点,提出了一种情感评价单元构建方法。该方法分别构建了情感评价词、副词和评价对象词典,并制定了相应的成分补充和单元构建规则,不仅保证了提取信息的全面性和准确性,还在精简词集、提高效率方面做出了尝试。实验表明,该方法的准确性比基于句法路径的相关方法更高。  针对微博文本的分类问题,提出了一种基于图半监督学习的分类算法LP-SVM。该算法将标签扩散过程与支持向量机相结合,不仅实现了少量标记样本的分类,而且避免了图半监督学习不产生分类器,对于新数据只能重新训练的问题。结合该算法对微博产品的情感评价单元进行特征提取和半监督分类。实验表明,该算法的表现优于传统及直推式的支持向量机算法。  结合实际应用,提出了一种基于评价分类的微博产品推荐算法。该算法利用产品评价分类的结果,并结合微博的文本特征,制定了微博产品推荐指标及其计算方法。实验最终得到的微博产品推荐方案与相关网站用户评价结果基本一致,充分验证了该算法的准确性。
其他文献
数字版权保护技术主要包括加密技术和数字水印技术。对于加密后的作品,只有拥有解密密钥的人才‘能使用。可是,如果解密后数字作品不加以控制,就存在被非法复制,甚至盗版的危险。
近年来由于计算机技术在工程设计领域的广泛应用,使CAD(计算机辅助设计)技术迅速发展起来。目前,基于网络的协同、共享、远程工作和分布式处理技术等已经成为各个领域研究应
随着信息技术的发展,应用软件越来越复杂,导致软件“软件危机”的产生。软件的正确性和可靠性难以保障是“软件危机”中突出的一个问题。“软件工程”的出现与发展对解决“软件
随着企业信息化的迅猛发展,越来越多的企业选择软件管理系统来支持企业中的各种活动,企业管理软件在企业管理中扮演越来越重要的角色。但是随着企业活动的多样化,单一的系统安全
本文针对信息战中无人飞行器嵌入分布控制的高可靠性要求,研究适合异构嵌入分布计算平台的多模式容错技术,为平台可靠性研究奠定了基础。 根据系统的模块化、并行性和自治性
随着计算机技术和通信技术的发展,即时消息技术(Instant Message)越来越受到人们的关注,在企业信息化、电子政务和个人通信等领域得到广泛的应用。在电力监控管理系统越来越复
近年来,移动数据增值业务无论是从用户规模还是业务规模都有了长足发展,随之而来的业务数据管理的需求量也与日俱增。这就对面向移动数据增值业务运营的公司提出了提高自身的业
目前,很多学者都在尝试用不同的方法来求解Job-Shop调度问题。但是由于Job-Shop调度问题本身的复杂性,每种方法都存在着不足之处,如方法比较复杂或解的近优性较差。借鉴操作
在数据挖掘中,分类是一种重要的技术,它能对大量有关数据进行分析、学习,并建立相应问题领域中的分类模型。该技术在科学、工程、金融等领域均有广泛的应用。本文介绍了文本
随着软件行业的迅猛发展,软件外包业务的不断扩大,人们对掌握软件成本估算方法的需求越来越迫切。而软件规模估算作为软件成本估算的一个重要基础,也日益受到广泛的关注。 本