半监督学习的老挝语词性标注方法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:linuxedit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对老挝语语料资源极少而无法直接利用有监督学习的方法实现老挝语词法分析的问题,提出了基于半监督学习的老挝语词性标注方法。首先利用仅有的少量标注词典和未标注语料资源,采用简单概率模型建模,获取较为完整的标注词典;其次利用整数规划获取大量自动标注的语料;最后在训练语料充足的情况下,利用二阶隐马尔科夫模型建模,实现高质量的老挝语词性标注。提出的方法在老挝语词性标注方面取得了较好的效果,其准确率达到89.8%。
其他文献
基于不确定性决策问题,提出一种D型概率决策形式背景,并针对D型概率决策形式背景定义"△"算子,获得概率形式概念,构造相应的概念格。又定义了D型概率决策形式背景的协调性,在协
含有大规模决策变量的优化问题是当前多目标进化算法领域中的研究热点和难点之一。在解决大规模变量问题时,目前的进化算法并没有寻找决策变量之间的关联信息,而都只是将所有变
针对数据流中可能出现的概念漂移现象,采用改进的FCM算法进行模糊聚类,提出在大小可变的滑动窗口中通过度量相邻窗口之间的差异性来判断是否发生了概念漂移,并给出了相应的处
在现有研究的基础上提出了一种基于式样单(stylesheet)划分的XML数据并行转换方法,并针对该方法所涉及的以下关键问题进行了讨论:1)如何从式样单中获得多个相互独立的转换单元,它
针对数字视频的内容保护与帧内、帧间篡改检测的难题,采用压缩感知理论提取视频的内容特征作为水印,提出一种双水印的视频保护和篡改检测算法。首先,利用压缩感知过程提取I帧
随着信息技术的发展,尤其是移动互联网与物联网的发展,有关个人工作和生活的数据呈指数型增长。这些海量的数据中蕴含着丰富而有价值的个人信息,如何从这些数据中挖掘出有价值的