二元语法相关论文
本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为......
在一个基于经典隐马尔可夫模型(Hidden Markov Model,HMM)的汉语全音节、非特定人、连续语音识别系统中,利用声学层分数和基于拼音的......
该文介绍了对中文校对系统所侦测出来的错误字串提供修改建议的算法。这个算法已应用在IBM中国研究中心研究的中文校对系统CEC中。它首先......
基于视频的动词语义习得模型,简称ViMac-V系统,是一种自然语言生成系统。ViMac-V首先在学习阶段从双通道语料中习得动词框架和各成......
词性标注在很多信息处理环节中都扮演着关键角色。哈萨克语作为新疆地区通用的少数民族语言之一,自然语言处理中的一些基础性的课题......
中文粗分是中文分词的基础环节,目前常用的粗分模型有基于规则的非统计模型和基于一元语法(uni-gram)的统计模型,其中后者取得了较......
中文分词的方法主要可分为基于规则和基于统计两大类:前者一般借助于词图的方法,将分词问题转化为最优路径问题,通常切分结果不惟一;后......
将多种平滑算法应用于基于二元语法的中文分词,在1998年1月人民日报语料库的基础上,讨论了困惑度和实际分词性能之间的关系,对比分析......
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生......
不同的应用领域会对自然语言处理系统提出各种不同的要求,但有一点是相同的,即希望系统处理的是自然语言,是大规模的真实文本。国......
根据中文古籍信息检索技术的需求 ,本文在大规模语料库上对古汉语进行了统计分析。首先给出了在信息处理中多个专用语料库的动态知......
新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了......
词语粗分是分词后续处理的基础和前提,直接影响到分词系统最终的准确率和召回率。针对目前常用分词方法单一使用时存在的不足.综合机......
随着互联网技术的迅速普及与发展,越来越多的用户喜欢在网上发表评论,分享自己对某个产品或事件的观点与看法,这使得网上含有主观情感......
针对传统的文本分类方法需要大量人工标注好的训练数据,且数据标注的好坏会影响结果等问题,通过对LDA及其相关模型的研究,提出一种......
信息技术和互联网技术在近几年的迅速发展,带动了网络社交平台的火热流行。新浪微博平台就是其中的佼佼者。随着微博用户群体的扩......