基于情感字典与机器学习相结合的文本情感分类

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yunguii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着电子商务,个人博客,社交网站和微博的蓬勃发展,互联网进入了一个崭新的时代,用户生成文本(user generated content)的产生,标志着人们已经不再是单纯的受众,而是成为了互联网的一部分。广大用户有了发表自己意见的空间,带有主观色彩的言论或评价随之铺天盖地而来。这些海量的非结构化的信息显然包含了大量的信息。企业需要获得用户对产品的意见,政府需要知道群众对某项政策的反映。而用户在消费前想获得更多的建议。如何处理这些信息从而获得我们想要的知识,是当前学者们关注的焦点。情感分类是随之而兴起的一个研究领域,它从文本的情感表达入手对文本进行分类,将其分过正面(positive)和负面(negative)。这样我们可以清楚的知道,文本信息所表达的态度是赞成还是反对,这种产品值得推荐还是一文不值。在这样一个背景下,本文对文本情感分类问题进行了下述研究工作:首先,本文针对情感分类的特点提出了一种自监督的分类模型,将情感分类中常用的基于字典方法与基于机器学习方法相结合,克服了基于字典方法的完备性问题和基于机器学习需要庞大人工标注训练集的问题;其次本文尝试将信息检索中常用的TFIDF模型引入到情感分类中,对其进行调整以适应情感分类问题。最后,本文通过搭建分类模型工程,在情感分类常用数据集上实验证明,本文提出的分类模型可以在不需要庞大人工标注的训练集的情况下获得较高的分类精确率。TFIDF的改进加权模型比布尔加权模型提供了更多的信息,因而也取得了比布尔加权模型更优的分类结果。
其他文献
【目的】探讨过敏性紫癜(Henoeh一Schonlein purpura,HSP)的临床特征和诊治情况,分析临床特征和治疗及预后之间的关系,为过敏性紫癜的诊断和治疗提供参考。【方法】回顾性分
<正> 德莱塞象诺里斯、杰克·伦敦等美国小说家一样,通常是作为现实主义作家介绍给我国读者的,但是美国评论界谈及文学沉派,常把他奉为美国自然主义小说的宗师之一。究竟孰是
以阿联酋某一高层项目结构设计阶段优化设计为例,总结在D&B总承包模式下,结构优化设计的控制思路和管理流程。分别从技术设计和施工图设计两个阶段,着重论述所采取的具体措施
在信息化战争中,部队必须要很好的适应复杂的战场电磁环境,才能提高作战能力;只有在复杂电磁环境背景下训练,才能有效提高部队信息化战争中的作战力。如今,电子技术发展迅速,
税务代理作为一种社会中介服务行业,主要是在涉税市场业务中接受纳税人的委托,代理从事各项涉税事务,具体贯穿于税收征纳的整个过程。随着我国税收征管质量的提高,需要税务中
<正>随着各种高新诊疗技术的广泛使用,职业危害是护理人员共同面对的严峻问题,国内外学者高度关注临床一线护士的职业危害以及自我防护问题。但文献[1]显示,我国护理学者们对
西方法治理念的形成是伴随着西方资本主义制度的产生、演变以及巩固而发展起来的。西方法治理念源远流长,体现在很多的理论和学说中,西方法治理念对我国法治理念提供了重要的
教育是兴国之本,体育是强民之要。跆拳道主要是拳腿并用而以腿法为主的体育运动项目,它也是一项修身养性、强身健体的运动项目。近年来,跆拳道在我国开展得比较广泛,但初中开
上海中心大厦高632m,采用双层幕墙系统,外形通过幕墙支撑旋转进行调节,施工测量工作量大,现场工况复杂。针对上海中心纯悬挑幕墙的特点,对施工过程中的测量控制技术、内业数