【摘 要】
:
近年来语料库语言学的发展较为迅速,它为语言研究打开了一条新的道路。英语、汉语等的词频统计研究为少数民族语言语料库的不同层面进行的定量研究奠定了可靠的,坚实的基础和
论文部分内容阅读
近年来语料库语言学的发展较为迅速,它为语言研究打开了一条新的道路。英语、汉语等的词频统计研究为少数民族语言语料库的不同层面进行的定量研究奠定了可靠的,坚实的基础和借鉴的经验。藏文信息处理技术的发展和藏语研究的成果为开展藏语语料库研究和进行词频统计创造了条件。藏文词性标注是藏文信息处理技术中的一项基础性课题。一方面,它的研究成果可以直接融入到信息抽取、信息检索、机器翻译等诸多实际应用系统当中;另一方面,藏语自动词性标注也是藏语语块识别器、藏语句法分析器、藏语语义分析器必不可少的前端处理工具。因此,研究和实现藏语词性标注器具有重要的理论意义和实用价值。词性标注的方法主要有基于规则和基于统计的两大类。由于基于统计的方法具有不需要人工总结语言学规则、正确识别率高等优点,已逐渐成为研究的热点。在基于统计的方法中,HMM是最广泛的算法模型之一本文主要对基于统计的词性标注技术进行了研究,所实现的藏语词性标注系统主要通过隐马尔可夫模型对训练语料库进行数据统计,获取所需词性和词汇概率信息,针对藏语训练语料库规模较小导致的数据稀疏的问题,运用了简单而高效的“加一法”数据平滑算法进行数据平滑处理,然后通过词汇概率信息和词性转移概率信息建立核心字典和Bigram模型字典,最后按照以上两个字典的信息采用Viterbi算法选择最佳标记串进行标注。本项实验性研究针对计算机自动处理藏语语料进行的尝试性探讨研究。研究证明,运用HMM的方法,对藏语语料进行词性自动标注是可以实现的,在本系统中封闭性测试的正确率达到88%-90%。
其他文献
面板数据模型可以充分利用时间段和截面单元的的信息,既能考虑到横截面数据存在的共性,又能分析模型中横截面因素的个体特殊效应,从而使得j计量分析结果更加稳定、有效、可靠
美国的国家政策奠定军民融合的基础,法律法规规范军民融合运行,独具特色的国防采办法律制度促进军民融合发展。美国把军民融合作为国家战略,通过立法加以推进,树立法律对军民
在英语和汉语中都存在着名词短语有多项前置定语的现象。名词短语的多项前置定语是指中心语名词前置两项或两项以上的修饰语。名词短语的多项前置定语已经成为比较语言学的一
利用TG-DTG-DSC(热重-微分热重-差示扫描量热法)热分析联用技术,对生物质稻杆(DG)、麦杆(MG)和油菜杆(YCG)分别在10℃/min,20℃/min和40℃/min升温速率条件下的燃烧动力学特性进行了研究.考
目的 探讨DNMT1在宫颈癌中的表达与宫颈癌生存结局的相关性。方法 以102例接受初级治疗的宫颈癌患者为研究对象,采用免疫组化检测DNMT1的表达,以DNMT1阳性细胞百分比及其强度
目的探讨判别统计方法在新生儿先天性肾上腺皮质增生症(CAH)筛查中的应用价值。方法对上海交通大学医学院附属新华医院新生儿筛查中心2008年至2011年CAH筛查资料进行回顾分析
随着翻译研究的重心从注重文本翻译向语言外部研究转移,翻译研究的焦点也从文本内转向文本外,从注重文学系统内部的原文研究转向从文学系统的外部环境探讨译文的变形,从单纯
聚氨酯弹性体,又称聚氨基甲酸酯弹性体,是一种主链上含有较多的氨基甲酸酯基团的高分子合成材料。它的伸长率大、硬度范围宽广、耐磨性、生物相容性与血液相容性特别突出。同
<正> 随着我国证券市场的发展,企业之间的购并越来越频繁,企业之间的股权关系也越来越复杂。对于复杂控股关系下的合并会计报表编制问题,财政部1995年颁布施行的《合并会计报