【摘 要】
:
自然语言处理是人工智能的基础性工作,包含很多分支,如语音识别、机器翻译、舆情分析等,随着互联网信息技术的飞速发展,尤其是大数据分析技术的不断成熟,近来年,舆情分析地位凸显,成为商业领域把握市场规律和社会领域了解社情民意的重要手段。在这种商业和社会因素的影响下,越来越多的研究者开始关注和研究这一领域。在全球信息技术飞速发展的大背景下,藏文信息处理技术取得了长足的发展,藏语逐渐迈入了互联网时代。由于藏
论文部分内容阅读
自然语言处理是人工智能的基础性工作,包含很多分支,如语音识别、机器翻译、舆情分析等,随着互联网信息技术的飞速发展,尤其是大数据分析技术的不断成熟,近来年,舆情分析地位凸显,成为商业领域把握市场规律和社会领域了解社情民意的重要手段。在这种商业和社会因素的影响下,越来越多的研究者开始关注和研究这一领域。在全球信息技术飞速发展的大背景下,藏文信息处理技术取得了长足的发展,藏语逐渐迈入了互联网时代。由于藏文情感分析起步较晚、基础薄弱,语料不完善等因素客观存在,各方面工作亟需提升,具有很大的研究空间。本文从海量大数据信息中选取藏文新闻文本作为研究对象,将藏新闻文本情感分析的流程分为语料的抓取和预处理、基础情感词词典的构建、情感词词典的扩充、情感计算等阶段,针对每一个阶段的工作特点提出了各自的理论基础和研究方法,并设计相应的实验加以实现和验证。主要工作如下:1.在藏文语料采集方面,首先利用爬虫技术从中国藏族网通、人民网、新华网等国内外新闻网站定向采集大规模藏文文本信息,然后对采集到的信息进行降噪处理,最终建立了面向藏文情感分析的大规模藏文新闻语料库。2.在基础情感词词典构建方面,针对情感词词典缺乏的问题,以实验室已有工作的基础上,利用词向量扩充情感词词典的方法对新闻网站定向采集到的大规模藏文文本进行处理,然后从中自动抽取情感词,用人工和机器向结合的方式,建立了一部比较实用的藏文情感词词典。3.在藏文新闻文本情感分析方面,首先基于情感词词典的方法对面向藏文情感分析的大规模藏文新闻语料库进行自动标注,利用标注语料构建SVM模型,采用SVM、词典、SVM+词典、SVM+词向量+词典等方法训练模型,对定向采集到的大规模藏文文本进行情感计算和情感倾向性分析,通过实验对比,SVM+词向量+词典方法训练模型得到了较好的效果。
其他文献
从双光束干涉的基本原理出发,分析了高斯分布光源条件下利用傅里叶变换解调光纤法布里珀罗传感器的原理。针对高斯分布光源特点,提出直接对波长均匀采样得到的光谱数据进行
在国家宏观政策和整体经济环境的推动下,人们对环保观念的不断转变,各国政府对于环境保护的力度越来越大。同时,随着我国经济的发展,汽车销量越来越大,而汽车燃油蒸发排放污染问题越来越引起人们重视。汽油不但高度易燃,而且随着温度的变化非常容易挥发。由于汽油的易挥发性,汽车燃油蒸发排放系统控制变成了轻型车汽油机上必须面对的严峻考验。汽油蒸气内含有的碳氢化合物与汽车尾气在阳光的作用下,则会产生光化学烟雾,对人
目的将孕期保健措施应用在高龄产妇中,探究这种措施对产妇并发症及妊娠结局的影响。方法将本院在2015年1月至2018年1月收治的高龄产妇共计122例作为本研究的研究对象,为了便
简要介绍粉料气力运送装置的设计与计算方法,利用该方法可以确定某些工艺参数,为设计提供依据.
重症急性胰腺炎(包括急性出血性或急性坏死性胰腺炎)由于发病突然,临床表现复杂,病情进展迅速,易引起全身多脏器功能损害,如并发急性腹膜炎、成人呼吸窘迫综合征、胰源性糖尿
各省、自治区、直辖市党委统战部、政府宗教局、发展改革委、民政厅(局)、财政厅(局)、国家税务局、地方税务局,新疆生产建设兵团党委统战部、民宗局、发展改革委、民政局、
北京市住宅建筑设计研究院有限公司组建于1983年,是具有建筑行业建筑工程甲级资质、风景园林工程设计专项甲级资质、城市规划编制乙级资质的北京市高新技术企业。经过三十余
对传统学习模式中的学业情绪研究进行评述,对比教育游戏与传统学习模式的异同,发现教育游戏中学业情绪的特殊性,以期能借鉴传统学习模式中学业情绪研究成果,为教育游戏的情感
高效率大电流直流稳压电源广泛应用于各种大型仪器和电子设备中,这种稳压电源能满足当今的各种科学研究和实验设备的要求。技术指标 1.输出稳定电压范围:1.2V~30V连续可调;2.
脑卒中后抑郁是一种常见的并发症,有学者经研究表明脑卒中后抑郁对神经功能康复有直接性的影响。临床表明,脑卒中后抑郁属于急性脑血管病灶中的一种较为常见的并发症,发生率在21