基于稳健词素序列和LSTM的维吾尔语短文本分类

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:weiyideta21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的.其中,词干是有实际意义的词汇单元,词缀提供语法功能.该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短文本分类技术.用基于词-词素平行训练语料的稳健词素切分和词干提取方法,从互联网下载的文本中提取其词干,以此构建词干序列文本语料库,并通过Word2Vec算法映射到实数向量空间.然后用LSTM网络作为特征选择和文本分类算法进行维吾尔语短文本分类实验,并得到95.48% 的分类准确率.从实验结果看,对于维吾尔语等派生类语言而言,特别是对于带噪声的文本,基于词干的分类方法有更多优异的性能.
其他文献
该课题为国家自然科学基金资助项目.该文的主要内容是广义极化K-分布统计模型的建立以及广义极化K-分布纹理参数的估计.由广义极化K-分布统计模型得到广义极化K-分布纹理的概
从原生动物到哺乳类,所有动物都会逃避极端低温和极端高温,表现出偏爱温度适中区。在一个有温度梯度的热环境中,能够运动的动物都会向一个较窄的最适温度范围集中。这种现象称作
该文主要论述了基于小波边缘表示理论的图象增强、去噪.另外对于局部缺损图象的恢复也进行了一些讨论.借助于小波理论,可以把图象分解成不同分辨率下的多尺度边缘图象以及一
随着温室效应的进一步加剧,环境问题受到越来越多的关注,节能减排为各国政府组织所倡导。研究表明,全球二氧化碳的排放中,有3%左右是来自通信网络及其各种设备,而通信网络中
该文主要介绍了在电视图像制导系统中应用的数字图像解码器的设计和实现.采用数字信号进行图像的传输,可以有效的对抗电视信号传输过程中的各种干扰,还可大大的降低视频信号
该论文研究了经典的直接码分多址(DS-CDMA)中的几个基本问题。主要以扩频码设计为中心,分析了各种因素对传统的CDMA系统性能的影响。
智能网是当前通信领域的热点话题.该文给出了一种智能网专用资源功能的软硬件设计方案,然后,首先给出了一种大容量DTMF/MFC码收发资源电路的软硬件的设计原理;再次,给出了专
该文概述了图文电视的原理和特点,介绍了图文电视在国内外发展的现状和趋势,探讨了信道编码的原理以及图文电视中的差错控制方法.简要介绍了一种图文电视微机接收卡的硬件设
该文讨论了前视红外系统中关于电路部分的设计问题.文章系统地介绍了红外系统的光学成像原理和有关系统性能公式.针对双光楔扫描的非线性方式,介绍了一种电路校正的设计方法.
该文讨论了SYBASE环境下一个OAS(党政机关办公自动化系统)的设计与实现.随着经济和技术的发展,OAS的要求日趋强烈,党政机关办公自动化系统作为信息化的重要工程被提到议事日