【摘 要】
:
近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡
【基金项目】
:
国家自然科学基金资助项目(90920004,61070123,61003153,60970056);模式识别国家重点实验室开放课题基金资助项目;江苏省自然科学基金资助项目(BK2008160);江苏省高校自然科学重大基础研究资助项目(08KJA520002)
论文部分内容阅读
近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。该文收集四个产品领域的中文评论文本,发现正类样本的数目远远多于负类样本。针对不平衡数据的中文情感分类,提出了一种基于欠采样和多分类算法的集成学习框架。在四个不同领域的实验结果表明,我们的方法能够显著提高分类性能,并明显优于目前主流的多种不平衡分类方法。
其他文献
通过构建数理模型分析推导以及采用2003—2011年中国31个省市自治区的面板数据实证分析了区域内外绿色技术知识存量以及非绿色技术知识存量对技术创新的影响,同时进一步分析
嵌入式高确保系统(如综合化航空电子系统等)对于不同安全级别的信息的跨平台、多用户处理和共享提出了更高的安全性要求。针对这一要求,学术界提出了多重独立等级安全(Multiple
<正> 一、实行水务一体化管理体制以来所做的工作 仪征市水务局充分发挥水务一体化优势,在完善水务良性运行机制、建立多元化水务投入机制、大力推进城乡水务建设等方面进行
微博、微信以其方便、灵活、传播广泛等特点,一经推出就以迅雷不及掩耳之势获得了众多追随者,给社会发展带来巨大影响。本文通过对微博、微信发展现状的比较分析,探讨了两者
随着近年来的扩招,高职教育也受到了社会各界的广泛关注。然而高职语文教育作为近年来高职教育改革的重点,并没有取得应有的成效。本文就现阶段高职语文教学改革中存在的一系
<正>因为有了互联网,世界越来越像麦克卢汉预言的"地球村"。网络媒体是互联网时代的一个突出产物。它实现了传统媒体的电子融合,涵盖了传统的文字、图片、影像和声音传播的特
随着"营改增"政策的深入推行,企业的税收负担、财务活动、经营行为也会随之改变,特别是改革前处于营业税制下的企业。本文首先分析了增值税的特点,然后介绍了"营改增"政策下
本文阐明了近年来我国中小企业财务风险的现状和存在的主要问题,对目前企业财务风险的原因进行了多方面的分析,有针对性地提出合理防范财务风险的措施,这些措施有研究分析外
本文提出在新媒体的冲击下,传统媒体公信力建构的重要性和紧迫性,论述了传统媒体公信力面临的困境主要源于新媒体的影响和传统媒体自身发展中存在的弊端两方面。提出重建传统
本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不