面向日文输入法的混合语言模型的改进与实现

被引量 : 0次 | 上传用户:robinlaikankan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的不断发展,计算机已经渗透到生活和工作的方方面面,同时,在计算机的使用过程中,针对计算机的信息输入是人机交互中的一个重要环节。因此,人们对于一个良好的智能输入法的需求也越来越强烈,输入法的重要性也慢慢的体现出来。随着自然语言处理技术的发展,传统的输入法已从最开始的字、词模型发展到现在的基于语言模型的智能输入法。使用基于词条粒度的语言模型来提高整句变换的转换精度,使得音字转换准确率有了很大的提高。然而完整的语言模型往往过大,输入法无法使用,因此对语言模型进行压缩操作则显得十分必要。本文没有使用常规输入法模型中惯用的剪枝方法,即保留部分核心词条的语言模型的方案。考虑到日文语言规则性较强的特点,笔者采用对词条进行聚类的方法对语言模型进行压缩,用词类之间的关系来替代词条之间的关系,大大增加了语料利用率,减少了语言模型中的稀疏情况。同时,为了减少对语言模型进行聚类压缩过程中造成的损失,尽可能地减少压缩带来的信息丢失,笔者对仅使用词性信息进行聚类的方法进行了改进,使用词条之间的距离特征进行聚类,尽可能的降低同一类中的词条重码率,提出了一种基于词条之间的编辑距离的k-mean聚类算法。除此之外,还考虑到每个类别中词条词频的数量级,避免拥有不同数量级的词频之间因类别合并而造成词频信息的大量损失。另外,对于无法避免的压缩造成的模型信息的丢失,使用Bigram的语言模型进行补充,同时针对读音模型的准确率和覆盖率做了相应的改进和提高。最后,建立一种可扩展的基于混合语言的模型,包括2-pos模型、2-gram模型和读音模型。通过结合联合模型中各自模型的特点,能够提高输入法的变换精度,在测试集上进行不同模型对于变换精度的对比测试,分析了混合语言模型对于最终效果的影响。
其他文献
民事缺席判决制度历经了古希腊、古罗马和近现代的变迁过程。大陆法系国家的民事缺席判决制度强调庭审的缺席判决,近现代的英美法系国家创建了审前程序的缺席判决制度。庭审
研究背景及目的情绪记忆又名情绪性唤醒记忆,它是情景记忆的一种类型,情绪性事件更易于被回忆起,称之为情绪性记忆增强效应。随着老龄化的进展,老年人较年轻人认知能力普遍下降,但
利用Google Map在Android移动设备上的SDK进行LBS应用系统的设计,通过对网络模块、地图模块等核心模块的构建和外接服务的嵌入,实现对当前移动互联网中移动LBS热点应用的设计
虽说不可量物侵害问题已不是新问题,但伴随着我国经济发展和城镇化进程的加快,由不可量物而引发的侵害纠纷问题层出不穷,此类问题呈现出复杂性、多样性等特点。就目前来看,我
基于云架构的数字化校园建设大大提高了校园网络信息系统的使用效率,显著降低了运维以及人力成本,成功突破了校园信息化建设的瓶颈。主要阐述了云计算的定义和特点、"云平台"
对我国工业设计教育现状及存在的问题、工业设计教育与企业人才需求脱节的原因及滨海新区制造企业工业设计需求状况进行了剖析,探讨了基于区域优势的工业设计教育特色发展模
目的探讨产后出血的时间、病因、预防、治疗和护理措施。方法我科自2000年~2009年共收治产后出血患者184例,对其进行临床分析及护理对策。结果对产后出血的常见危险因素如宫缩
研究背景:肝细胞癌是最常见的成人肝脏原发性肿瘤、世界第五大实体瘤和第三大癌症死亡原因,肝癌细胞系HepG2和正常肝细胞系L02是研究人肝细胞极有价值的模型,并得到广泛应用。
<正>2014年11月21日晚,央行宣布决定自2014年11月22日起下调金融机构人民币贷款和存款基准利率。金融机构一年期贷款基准利率下调0.4个百分点至5.60%;一年期存款基准利率下调
目前,随着混凝沉淀技术的进步,很多水厂的滤前水水质已有明显改善,有时浊度可达1NTU以下。在这种低浊度进水条件下,滤池的运行与设计都有别于以前的经验。本论文针对上述问题与现