维吾尔文文本情感分类若干技术的研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:didierda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于国家在政策、资金等方面对新疆通信事业的大力支持,维吾尔文网站及通信平台蓬勃发展,由此产生了规模庞大的具有情感倾向的维吾尔文文本数据。面对海量数据,人工方式已然难以进行全面、有效的情感信息分析,因此运用计算机技术实现对维吾尔文文本的情感分析成为必然选择。文本情感分类是对带有情感色彩的文本按其情感倾向进行区分的一种处理方式,是文本情感分析中的一项核心任务。本文针对目前维吾尔文情感分类工作中存在的缺乏标注资源、特征建设研究薄弱、标注样本获取困难以及对既有手段的比较研究不足等问题开展了以下研究工作:针对目前维吾尔文情感标注资源缺乏的问题,本文以半自动化的方式构建了具有12000多条词汇的维吾尔文情感词典——UYSenti Dict。此外在已有的两个维吾尔文情感标注语料库—电影文字语料库与微博语料库的基础上,构建了维吾尔文评论情感标注语料库和文学情感标注语料库,其规模分别为9000和600条句子。由于目前在维吾尔文情感分类特征表示方面缺乏系统性的研究,本文以传统n-gram特征为基础,按不同规模分别从4个领域维吾尔文情感语料库中提取了几种基本特征及其组合特征,进而使用4种特征选择方法、5种特征权重方法以及两种分类器评价了不同特征在维吾尔文情感分类任务中的性能,从而提出了适用于维吾尔文情感分类的最优特征、最优特征选择和权重方法以及机器学习算法。针对获取标注样本困难的问题,本文改进了已有的情感词典分类方法并将其与机器学习分类器相结合。首先基于情感词典UYSenti Dict对待分类语料进行了高质量的情感分类,在情感词汇的匹配过程中,将对象从单词原型延伸到词干,并充分考虑了语言语法规则对句子情感的影响。继而从词典分类结果中选择置信度较高的伪标注数据集训练机器学习分类器,基于性能较好的几种特征对剩余语料进行分类。由于本文所提出的方法不受数据领域限制,也不需要提前标注的训练语料,因此能够有效解决维吾尔文情感分类中的资源紧缺问题。由于大规模维吾尔文文本情感分类研究尚处于初探阶段,不同分类方法的效率差异尚待求证。因此本文从维吾尔文版天山网中下载大规模生语料,在此基础上训练了维吾尔文词向量,以词向量作为特征,通过深度学习模型(CNN、LSTM、CNN+LSTM)对维吾尔文文本进行了情感分类。在此过程中,通过调整模型参数,确定了实现维吾尔文情感分类的最佳深度学习模型及其参数,并将深度学习模型最优结果与传统分类方法的结果进行对比。为得到适用的维吾尔文情感分类方法,本文首次较为全面系统地对现有各种维吾尔文情感分类技术进行了对比和评价。在此过程中充分考虑了技术通用性与维吾尔文语言的自身特点并减少了对标注语料的依赖。本文研究成果不但可以促进后续的大规模维吾尔文文本情感分类方法研究,也可为大规模的哈萨克语、柯尔克孜语等文本的情感分类方法研究提供借鉴。
其他文献
苹果标准化作为苹果产业生产的有效手段,在促进果业现代化、降低交易成本、保障果品质量安全、提高社会整体效益方面,发挥了不可替代的作用。近年来,政府不断加大对标准的制修订工作,而对标准的实施情况以及实施效果评价研究较少,故构建苹果标准化实施与效果评价体系,建立科学合理的评价方法是本课题研究的重点。本研究通过实际走访,面对面调研了2012-2015年陕西省24个苹果基地县,71个乡镇,171个村苹果标准
学位
People always desire to find educational institutions that fulfill their requirements.It’s very hard to know different features of institutions and especially from the perspective of students and thei
学位
文种识别是一种利用计算机将电子文本自动划分为预先指定好的语言体系中的技术。文种识别是信息检索、搜索引擎、语音合成、自动问答和机器翻译等自然语言处理系统中的第一步。由于目前我国关于文种识别的研究较少,以及开源文种识别工具未考虑到部分少数民族语言文字实际情况,本文开展了如下研究工作:维吾尔文、哈萨克文、柯尔克孜文字符在Unicode编码方案中被安排在阿拉伯字符区域。因此,上述三种语言与其它用阿拉伯文脚
学位
命名实体识别是自然语言处理中的经典问题,其任务是识别文本中的人名、地名、机构名、专有名词等具有特定意义的实体。维吾尔文命名实体识别具有独特的词法、语言特点,直接套用英语和汉语的方法并不合适。目前,还没有公开的维吾尔语命名实体标注语料。本文通过人工标注构建维吾尔文命名实体标注语料库。在深入分析维吾尔文命名实体语法和语义特征的基础上,鉴于条件随机场在序列标注任务中的优异表现,首先使用条件随机场模型对维
学位
甜瓜(Cucumis melo L)在新疆栽培历史悠久,是当地重要的经济作物之一。新疆甜瓜品质独特,享誉国内外。然而,目前细菌性果斑病和霜霉病等病害严重地威胁着甜瓜生产,导致甜瓜品质下降,产量降低,引起较为严重的经济损失。甜瓜种质资源丰富多样,其中一些品种对果斑病和霜霉病具有抗性但农艺性状不佳,对这些抗病种质的抗性基因进行发掘,利用抗病基因对现有甜瓜品种进行改良是甜瓜产业发展的当务之急。基于此,本
学位
胡杨(Populus euphratica Olivier)是我国唯一一种能够在极端干旱的沙漠和半沙漠的环境中生长的多年生乔木植物,新疆胡杨林约占全国胡杨林总面积的90%。为了明确北疆不同分布地带的胡杨不同部位的细菌多样性和群落动态,分离胡杨内生菌和胡杨碱的细菌;从中筛选具有促生作用的,提高农作物生产的微生物资源,为应用植物促生菌改善作物生长打下基础。本研究以艾比湖湿地自然保护区和木垒原始胡杨林的
学位
对于家庭服务机器人,能否准确快速地获取到家庭场景中实体的语义信息是决定其智能化水平的关键。为了增强其语义信息获取能力与知识推理能力,针对家庭场景提出了一种面向服务机器人的领域知识图谱自动化构建流程。首先,利用词频-逆向文件频率算法(Term Frequency–Inverse Document Frequency, TF-IDF)从文本信息中提取服务策略关键字,构建服务策略图谱;其次,通过预训练的
期刊
昆虫细胞色素P450(CYP)酶系在有毒物质的分解和代谢过程中发挥着重要作用,已有研究表明P450酶系可被杀虫剂、药物、化学物质等诱导。棉铃虫在取食植物时,CYP会受到次生物质的诱导表达并参与解毒代谢过程,CYP6B家族的表达在此过程中发挥重要作用,其过量表达会使棉铃虫对杀虫剂产生抗性。研究发现植物次生物质2-十三烷酮(2-TD)能够诱导棉铃虫六龄幼虫中肠内CYP6B6的过量表达,降低幼虫的重量和
学位
随着棉花种植面积的不断扩大,我国已成为世界最大产棉国之一。棉花作为重要的大宗商品和纺织品生产原料,其生产是否健康稳定,不但影响千万棉农生活,还直接影响我国棉花大宗商品市场和纺织行业的正常发展。近几年来,我国棉花市场所面临的国内外环境日趋复杂,棉花生产波动频繁,棉农和棉企生产受限。科学合理的棉花生产预警体系,能够加强我国棉花生产风险预测,降低我国棉花生产的波动性和市场的不确定性,这对于稳定我国棉花生
学位
在环境污染和一次能源紧缺的双重压力下,可再生能源的开发与发展越来越重要。其中,风能作为一种可再生的清洁能源,具有有效减缓气候变化、促进低碳经济增长、缓解煤炭等一次能源的紧缺等优点,得到了中国政府和企业的高度关注。中国风电发展初期风电装机容量小、规模小,风电接入对电力系统的影响主要表现在风功率波动对系统造成的电压偏差、谐波污染等问题。随着风电技术的不断进步,风能产业的高速发展,中国风力发电正逐步走向
学位