【摘 要】
:
针对哈萨克文本分类中词干提取效率低以及传统框架下特征表示维度高、数据稀疏、分类准确率不高等问题,提出基于哈萨克语形态分析的词干提取方法以及wor2vec_TFIDF融合特征表
【机 构】
:
新疆大学 信息科学与工程学院,乌鲁木齐830046
论文部分内容阅读
针对哈萨克文本分类中词干提取效率低以及传统框架下特征表示维度高、数据稀疏、分类准确率不高等问题,提出基于哈萨克语形态分析的词干提取方法以及wor2vec_TFIDF融合特征表示和卷积神经网络(CNN)的哈萨克短文本分类方法.首先,根据哈萨克语的词素和语音规则,用词-词素平行训练语料训练高效词干提取模型,并用该模型从网上下载的哈萨克短文本中提取词干.其次,用word2vec算法训练词干向量来分布式地表示文本内容,再用TFIDF算法对其进行加权.最后,用CNN进行文本分类实验,得到95.39%的分类准确率.实验结果表明,稳健词素切分及加权词干向量表示和深度学习方法相比传统机器学习方法更能提高哈萨克短文本分类任务的效率.
其他文献
在多核系统中任务分配与调度是一个重要的研究方向.文章在多核任务分配与调度相关研究的基础上,针对同构多核处理器系统的特点,对任务分配问题建立模型,提出了一种基于滑动窗
在现有混合卷积神经网络架构(2D+3D)的视频分类方法中,卷积滤波器都是对局部区域进行操作,无法捕获大范围的时空依赖关系,特征通道之间缺乏相互依赖关系,传统的三维卷积核无法很好地建模时空特征.针对这些问题,提出了一种基于全局时空感受野的高效视频分类方法(CS-NL-SECO).首先将传统的三维卷积核分解成空域卷积核和时域卷积核,来更好地学习时空特征.然后在已有混合架构中的底层二维网络引入通道和空间
微机器人技术是一门交叉学科 ,有深厚的应用背景和广阔的前景 ,各国对微机器人的研究都相当重视。尤其是日本对管道微机器人的研究取得了很多成果。我国也开始了面向管道的微
为了有效滤除图像中大量的椒盐噪声,同时更好地提取出感兴趣目标区域的边缘信息,提出了一种改进Canny算子的边缘检测算法.该算法使用混合滤波器代替Canny算子中的高斯滤波器滤除图像中的噪声,使用水平、垂直、45°和135°四个方向梯度模板计算图像梯度,使用最大类间方差法(OTSU)对图像的高低阈值进行确定.通过对不同背景下的椒盐噪声图像进行检测,与传统的边缘检测算子和改进的Canny算子实验结果相
配电网拓扑结构的优化是配电网运行中的一项重要任务,在正常工况或异常工况下通过改变开关状态位置来实现.本文以网络的有功损失最小为目标函数,并将节点电压、线路容量、径
十年前那个盛夏的早晨,我和唐篁刚步出小旅馆,就被一场大雾包围了.rn我们的目的地是T市直机关宿舍区25号楼.唐篁的四叔说:那地方离长途汽车站顶多七八百米远,沿着大街走,遇红
目的:
结直肠癌是世界范围内最常发生的恶性肿瘤之一,在我国其发病率和死亡率逐年升高,目前死亡率已跃居恶性肿瘤第2位。尽管确诊时70-80%的患者可以进行根治性手术切除,
草药一见喜是疗效较好,具有广谱抗菌作用的药物,能代替多种抗菌素,付作用较少,为广大医疗单位所利用,各地正积极推广栽培和应用.它的医疗有效成份为内脂类物质,叶片中含量最
在强化学习中智能体通过与环境交互获得奖励值,更高的奖励值需要更优的策略,但在高维复杂的环境中,传统的强化学习算法交互产生的样本复杂度较高,并且会产生过估计问题,导致