面向“校园百事通”的藏文问题分类研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:asdf20091234567889
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前问答系统已经成为广大院校和研究机构的一个研究热点,而研究问题分类是做好问答系统的前提。如今中文问题分类的研究已经趋于成熟,对于藏文问题分类的研究则寥寥无几。本文选择西北民族大学这个特定领域,研究民族院校问答系统中藏文问题分析模块中的问题分类。本文首先分析了藏文问句与普通文本的区别以及藏文问句的特点,然后结合问题集的特点对现有的语料进行分类。由于本文所使用的语料是来自西北民族大学的藏文校园问题集,考虑到本文的语料较小,且问句较短,特征较少,若将类别划分的太细则导致特征无法识别,类与类之间区分度降低。文章将全部问题共划分为四大类。这四大类分别为学校概况、教育教学、民大文化和服务保障。将语料整理完成之后就是对语料进行预处理,文章采用了西北民族大学祁坤钰老师的藏文分词系统进行分词处理。其次本文在问题文本表示方面选择了词向量表示方法,用word2vec技术中Skip-gram模型将问题文本转化为低维且稠密的词向量。该方法可以解决因维数稀疏造成的维数灾难问题,同时也可以用来衡量词与词之间的相似性。问题文本转化为词向量表达形式后,将每条问题以二维矩阵的形式输入到卷积神经网络模型中去。文章根据问题集的特点和大小将卷积神经网络模型结构设计为一个输入层、一个卷积层、一个池化层和一个全连接层。在CNN模型中用卷积层和池化层提取问句特征,最后用softmax分类器完成问句分类的工作。为了证明卷积神经网络对藏文问题分类的效果,文章将其与机器学习中朴素贝叶斯和KNN分类方法进行了对比。实验结果表明,卷积神经网络模型的分类效果优于机器学习,对藏文问题分类具有良好的效果。
其他文献
本文采用三维运动捕捉技术对汉语普通话的语音以及人脸特征点坐标进行数据采集,通过研究分析发音人汉语普通话唇部的发音变化特征,实现汉语普通话语音学习软件的设计,从而达到语音教学的目的。全文的研究工作主要包括以下三部分内容:(1)采用经过Vicon Cara和Dynamixyz两者改装相结合的面部捕捉技术,得到能够同步采集音频和视频的运动捕捉系统。首先,对人脸面部特征点及语音数据进行采集;其次,使用该系
狼疮性肾炎(LN)是系统性红斑狼疮(SLE)常见且严重的临床表现。肾上腺糖皮质激素联合环磷酰胺作为经典治疗方案,使LN患者的预后得到了明显改善。但部分LN患者对多种免疫抑制剂
目的:胰腺癌每年造成超过331000例死亡,是两性中癌症死亡的第七大原因。为进一步探索肿瘤发生机制,现探讨MSMO1在胰腺癌中的表达水平及其临床病理学意义。方法:收集具有完整
《中华人民共和国民法总则》(以下简称《民法总则》)的颁布与实施无疑是中国特色社会主义法制现代化建设的里程碑,自2017年10月1日正式实施以来《民法总则》不仅实质性地开启
研究目的:通过比较PWC170功率自行车测试、二级台阶测试与递增负荷直接测试的最大吸氧量(maximal oxygen uptake,VO2max)一致性,探讨两种间接测定法推测VO2max有效性,并分析两
本翻译实践报告源文本选自丹尼尔·斯通(Daniel Stone)所著的《食物探险者》(Food Explorer)一书的第四章和第五章,这两章主要描述了十九世纪,美国著名植物探险家戴维·费尔
随着每年派出汉语教师志愿者数量的增加,志愿者在海外进行汉语教学过程中出现了许多亟待解决的问题。首当其冲的就是如何提高其教学工作满意度。汉语教师志愿者的海外教学工
笔者所选的翻译材料节选自《接受研究与视听翻译》(Reception Studies and Audiovisual Translation)第二部分中的《语境中接受的多种方法研究》(Multi-method research Rece
高密度光学信息存储和信息加密读取已经成为了大数据时代下的关键技术,它可以有效地解决数据膨胀、云计算和海量数据存储的安全性等问题。光致变色材料被认为是重要的光学信
目的:近年来,随着溶栓、导管技术的发展,心脏等大血管手术过程中为了避免大量出血,常常会选择在某个特殊阶段对腔腹主动脉进行血流阻断,这造成脊髓组织暂时性缺血,而血供恢复