n元模型相关论文
目前,网络舆情分析等任务中存在大量语种易混淆、编码形式多样、文本长度较短的网络文本。本文选用汉语、日文、维吾尔语、哈萨克......
为解决电力线路巡检时传统人工查询的低效和费时等问题,以及通用语音识别工具针对电力专业指令识别率低的问题,文章提出了面向电力......
随着大数据的趋势,越来越多的语言研究者开始关注和采用基于大规模语料的研究路线.但是,大部分语言学专业学生的统计知识基础相对......
为解决服务推荐过程中,用户兴趣的不确定性问题和多样性问题,提出一种基于用户多兴趣的服务流程推荐方法。该方法分为两部分:①初......
在以往的维吾尔文全文检索系统中,由于维吾尔文本身构词方式及形态的灵活多样性,不可避免地需要进行词干切分,并以词干作为索引项......
文本自动校对是蒙古文信息处理核心技术之一,是基础研究和应用技术的有机融合.文本校对包含词典建设、词法分析等基础资源建设和底......
词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标......
提出了一种基于大规模标注语料库的词语聚类方法。文中根据专家群体对某一具体问题进行决策的需要,回顾了国内外几种基于分布的词......
汉语分词在汉语文本处理过程中是一个十分特殊而重要的组成部分。传统的基于词典的分词算法存在着很大的缺陷,它们无法对未登陆词......
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽......
汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的......
本文以彝文信息处理的特点作为出发点,从N元模型、语音识别和语法分析等方面分析了彝文信息处理的主流技术。......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
本文阐述了藏文文本的错误形式的多样性。要对藏文文本进行局部查错,先要对文本中的音节进行纠错,音节的纠错又离不开对音节组成成分......
词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工......
随着互联网数据的快速增长,互联网信息质量也不断下降。但新闻出版、广播电视等部门又对文本质量有很高的要求,而这些行业的校对工......
互联网大数据的飞速发展对知识库的自动构建提出了迫切需求,互联网定义挖掘是知识发现研究的基础.文章基于N-gram语言模型提出了一......
介绍了一种基于HMM的汉语整句拼音输入转换为整句汉字的输入法,提出了引入语言知识后的一种音字选择方法,并给出了采用N元拼音文法时......
传统的自动校对技术多是基于字、词级的统计方法,有很多局限,通过讨论中文文本自动校对技术的设计思想与实现方法及中英文自动校对......