N元语法相关论文
提出一种基于N元语法的英文学术文献聚类标签抽取算法,该算法利用N元语法在大规模语料库上进行先期学习生成领域短语词表,再通过K-......
用户识别实质上是一种去匿名化(De-Anonymization)问题,识别任务中目的一般是根据匿名用户的行为数据从非匿名群体中找到与其最相......
文语转换(TTS)是将文字信息按语音处理规则转换成声音信号输出的技术。它可以使计算机流利地读出文字信息,使人们通过听就可以明白......
从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间......
该文通过研究国内外相关的拼写错误查错和纠错方法的理论,再结合维吾尔语自身的特点,提出了基于词典和统计相结合的维吾尔语拼写查......
在哈萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序......
本文专门研究了汉语语言模型的规模大小,语法元数在英汉统计机器翻译系统中的影响。实验表明,对于同样的语言模型,基于层次短语的......
使用C#3.0实现了一个多语言自动标记系统。分析了以往多语言标记的优化策略,给出了一个自学习和简化算法,提升了标记结果的正确率。同......
为减轻人工标注训练语料训面临的瓶颈问题,提出了一种基于NA假设带标训练语料库的自动构造方法,为检验该方法的有效性,将自以的带标训练......
选择基于统计的开源Masaru语法检查器为研究对象,分析技术路线与功能特点,提出了增加3元4元模型方法,并在系统中实现了3元4元语言......
该文通过研究国内外相关的拼写错误查错和纠错方法的理论,再结合维吾尔语自身的特点,提出了基于词典和统计相结合的维吾尔语拼写查......
从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面 ,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间......
该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记......
综合采用切分标志、分词词典和N元语法3种方法对古籍文本进行分词,并采用子串比较过滤、相邻词过滤、高频词过滤、低频词过滤等方......
在哈萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序......
随着网上信息激增,中文智能搜索引擎备受人们关注.分析传统中文搜索引擎的缺陷和性能,阐述中文分词、词性标注、语义分析、n元语法......
本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传......
英语作文体现了英语的书写能力,是英语能力中的重要一部分,在作文的学习过程中,需要进行大量的写作练习,而产生的大量练习作文同英......
英语在生活中的使用越来越广泛,对英语水平的要求也越来越高,而语法能力是英语能力的重要体现,因此语法学习愈加显得重要。由于英......
提出基于贝叶斯网络的中文分词模型,使用性能更好的平滑算法,可同时实现交叉、组合歧义消解以及译名、人名识别。应用字齐Viterbi......