【摘 要】
:
互联网的快速发展使得文本信息大量增加,如何对有价值的文本信息进行精确分类是自然语言处理领域研究的热点之一。在进行文本分类时,由于传统方法容易忽略语料特征对分类效果的影响,因此考虑语料本身特征会对文本分类产生积极影响。该文采用有监督机器学习和深度学习分类算法,基于语料特征对文本分类进行了以下研究。首先,针对情感语料情感特征不明显问题,改进了词频逆文档(Term Frequency-Inverse D
论文部分内容阅读
互联网的快速发展使得文本信息大量增加,如何对有价值的文本信息进行精确分类是自然语言处理领域研究的热点之一。在进行文本分类时,由于传统方法容易忽略语料特征对分类效果的影响,因此考虑语料本身特征会对文本分类产生积极影响。该文采用有监督机器学习和深度学习分类算法,基于语料特征对文本分类进行了以下研究。首先,针对情感语料情感特征不明显问题,改进了词频逆文档(Term Frequency-Inverse Document Frequency,TF-IDF)特征权重算法。通过构建语料专用情感词典,匹配情感语料,实现了情感语料的特征增强和冗余信息去除,优化了用于情感语料分类的词频逆文档向量空间模型。实验结果证明,针对情感语料,该模型在多种分类器上提高了分类性能。其次,针对文本语料长度不平衡问题,基于卷积神经网络和长短期记忆网络分类模型,改进了模型处理语料数据的方法。在模型数据输入上,采用语句自循环方式对文本语料进行等长化处理,以达到调动全局神经单元提取特征的目的。实验结果表明,该方法加快了模型的收敛速度,提高了不等长语料分类的性能表现。最后,针对特定语料主题性强、上下文语义联系紧密的特点,设计了一种结合卷积神经网络和双向门控循环神经网络的分类模型。该模型采用自训练主题词向量,加强了词语的语义联系,结合卷积神经网络提取局部特征和双向门控循环神经网络捕捉特征前后联系的优势,对语料进行特征降维和上下文语义抽取。实验表明该模型降低了语料数据维度,节省了网络计算资源,提高了特定语料分类的准确率。
其他文献
感应线圈作为一种无线电能发射装置,其产生的磁感应强度是影响其电能传输效率的重要因素之一。本文利用ANSYS建立了感应线圈的3D有限元模型,采用棱边单元法对发射线圈进行了
【目的】为消除草莓连作导致的土传病害,保证土壤生态环境的良性循环。【方法】采用Illumina Miseq高通量测序技术研究了草莓(红颜)恢复生长期、现蕾期、开花和结果期以及盛
介绍了北京市海淀区某污水处理厂水解酸化-A2/O工艺的调试及运行情况,分析探讨了该处理工艺的特点以及运行过程中出现的问题,并针对这些问题采取了一系列措施。监测结果表明,
随着当前经济水平的发展和社会文化的进步,人们出行的便利以及对于旅游的渴求,自然优美的度假山庄成了很多人假日休闲的首选地。度假山庄是集餐饮、娱乐、休闲、体验、居住、观赏等功能为一体的综合体,体现当地特色以及人文环境的基础上进行的大众化休闲环境空间。休闲度假山庄不仅要充分考虑当地自然环境的保护,同时也要利用自然环境、挖掘当地的人文特色,配置完善的功能设施。本文以湖南省株洲市炎陵县十都镇瓦屋下度假山庄景
目的探讨超氧化物歧化酶(superoxide dismutase,SOD)基因多态性与年龄相关性白内障发生的关系。方法年龄相关性白内障病例415例为白内障组,其中121例为皮质性白内障,109例为核性白
通过网络调查的方法对我国跨系统图书馆联盟建设的现状进行分析发现,高校图书馆跨系统合作意识不强、跨系统图书馆联盟分布地域较窄、城市基层公共图书馆尚未加人联盟、共享合
着重介绍了大桥水库溢洪道施工中,不同岩石边坡的开挖、底板保护层的开挖及施工中所获得的经验,供同行借鉴。
本论文通过研究沙葱及其提取物对肉羊DM采食量、血脂参数、背最长肌脂肪代谢相关基因表达及甲基化、肌内脂肪含量的影响,探讨沙葱及提取物调控肉羊脂肪沉积及脂肪酸组成的表观遗传机制。采用单因素完全随机设计,选取60只体重(35~40 kg)相近、4.5月龄的杜寒杂交母羊,随机分为4组,每组15只,对照组(T1组)饲喂基础饲粮,试验组在基础饲粮中分别添加沙葱粉(10.0 g/只/d,T2组)、沙葱水溶性提取
金庸武侠小说中的理想人格涵盖重义轻利、诚实信、勇敢无畏等内容。它扬弃了孔孟的伦理思想,有着深厚的文化底蕴,但由于它是由抽象的人性论为基础,因而缺乏现实的社会了终走出了
介绍了CAXA制造工程师的基本功能。结合可乐瓶底数控加工编程与仿真实例,阐述了GAXA制造工程师从造型、刀具轨迹生成、仿真加工等一系列过程,特别在加工方式的具体选择上作了进