基于聚类和索引技术的语言模型压缩方法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：caesarm4

【摘要】

：

由于训练语料的庞大，SRILM训练生成的ARPA统计语言模型数据文件体积过大，导致查找效率低下以及消耗大量的存储空间。针对该问题，借鉴聚类和索引查找的思想，提出了一种基于K均值（K

【作者】

：

祁斌川杨端端丁建国

【机构】

：

中国科学院上海应用物理研究所束测控制部门,盛大创新研究院语音主题部门

【出处】

：

计算机技术与发展

【发表日期】

：

2012年12期

【关键词】

：

语言模型压缩方法聚类算法多级索引 language model compression method K-means clustering algor

【基金项目】

：

国家“973”重点基础研究发展计划项目（2011CB808300）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于训练语料的庞大，SRILM训练生成的ARPA统计语言模型数据文件体积过大，导致查找效率低下以及消耗大量的存储空间。针对该问题，借鉴聚类和索引查找的思想，提出了一种基于K均值（K—means）聚类算法的对语言模型中的转移概率和回退概率压缩，并通过多级索引技术提高查找速度的压缩方法。理论分析和实验表明，该方法可以在减少压缩造成的数据失真对选词影响的同时，取得非常好的压缩效果，同时提高了对语言模型文件查找效率，并且输入法的反应速度得到了明显的提升。

其他文献

肝硬化30例临床治疗分析

目的探讨肝硬化的治疗方法。方法肝硬化患者30例临床治疗方法资料进行分析。结果 30例肝硬化患者经治疗,显效18例,有效10例,无效2例,总有效率93.33%。结论早期针对病因或

期刊

肝硬化综合治疗并发症

小学班主任实施心理健康教育基本原则

班主任是小学学校教育实施班级管理的基本负责人，需要根据学校教育的育人方针突出班主任管理工作的实际价值。随着联合国重新定义了“健康”的概念，世界各国都开始积极组织心理健康辅导活动，以便全面保护小学生的心理健康，优化小学生的成长环境，为我国培养出心志坚定的高素质人才做好准备。在一项社会调查研究中，结果表明现代人或多或少都会存在一定的心理问题，且随着社会环境变得越来越复杂，侵蚀小学生心理健康的因素也越来

期刊

小学班主任班级管理心理健康辅导小学学校班主任管理工作心理健康教育社会调查研究小学生心理健康

小学数学教师教学素养提升策略

在小学教育中，数学教学占据重要地位，做好小学数学教学，对于学生的学习成长具有重要意义。而教师是数学知识的传播者，教师的能力素质、师德修养将直接影响数学教学效果，影响学生学习效率。同时素质教育也要求小学数学教师要具备宽厚的科学文化知识、足够的数学专业知识、系统的心理学与教育学知识，能积极高效完成各项教学教学工作，培养学生对数学学科的兴趣与热爱，为学生的学习成长奠定良好的基调。但目前，小学数学教学过程

期刊

小学数学教师教学素养小学数学教学学习效率科学文化知识教育学知识小学教育数学知识

基于聚类和索引技术的语言模型压缩方法

其他学术论文