【摘 要】
:
本文主要研究了语音主题提取的全部过程:主要由语音数据的预处理、文本表示、特征提取、参数估计、模型训练和主题分类提取组成,以及通过Gibbs-LDA++和libsvm的环境平台实现对
论文部分内容阅读
本文主要研究了语音主题提取的全部过程:主要由语音数据的预处理、文本表示、特征提取、参数估计、模型训练和主题分类提取组成,以及通过Gibbs-LDA++和libsvm的环境平台实现对模型的仿真。语音数据的预处理主要包括对语音的转换、分词、去除停用词和词频统计。利用语音转换得到文本数据,再利用中科院计算所的汉语词法分析系统ICTCLAS对文本数据进行分词和去除停用词,以减少无用词的干扰,降低数据量;对进行了分词和去除停用词的数据再做词频统计,方便后面的处理,以及给词赋予权重。文本表示和特征的提取是计算机能够有效处理数据与提取性能好坏有着直接的联系。文本的表示我们利用的是向量空间模型,它是自然语言处理常用的模型,有着可靠的理论支持。特征提取是通过改进的x2统计量的方法来选取的,它主要是利用了特征项与类别间的关系来决定,避免了重要信息的丢失。在特征提取完后,我们需要在这些特征集上进行参数估计和模型的训练。参数估计是为了给建立LDA模型提供必要的三个参数φ、β和T。φ和β在LDA中不能直接的获得,只能通过一些近似算法得到,在这里我们采用了MCMC中的Gibbs采样来获取。T是主题数的大小值,需要我们人为设定,但是取多大的值才是最优的呢。我们通过优化DBSCAN算法,利用样本密度来判断主题与主题之间的相互关系来选取最优主题数,实现了性能的提高,减少了迭代次数。参数获取完后,就需要进行LDA模型的训练,让模型生成一个隐藏主题-文本矩阵,为后面的分类提取算法支持向量机提供支持,构造出分类器。最后我们通过在Gibbs-LDA++和libsvm的环境平台上进行中英文语音数据的提取实验,通过对比实验结果,根据性能的评测方法,我们能明显的验证出基于主题模型对语音主题的提取的优越性和有效性。
其他文献
航空发动机控制系统正朝着数字化的方向发展,全权限数字式电子控制系统以其巨大的优点渐渐取代了原有的机械液压式控制系统,将成为主流的航空推进控制系统。而作为发动机数控系
城市轨道交通规划是城市总体规划的重要内容,具有涉及面广、政策性强、技术复杂等特点.随着城市化建设的不断推进,很多大城市建立以城市轨道交通为骨干、常规公交为主体、其
目的:研究分析术前认知行为干预与术后分散注意力法提高微创经皮肾取石术(MPCNL)老年患者导尿管耐受性的作用。方法:回顾性分析我院于2014年2月~2015年2月收治的100例 MPCNL 老年
请下载后查看,本文暂不支持在线获取查看简介。
Please download to view, this article does not support online access to view profile.
气液两相流广泛存在于现代工业,但其流型辨识和流量测量技术一直是国际上没有很好解决的一个难题,国内外研究人员进行了多方面的研究与探索。中国石油大学(华东)自动化系致力
随着经济建设的快速发展,工业炸药生产规模的不断扩大,民爆行业要求技术不断完善,大力提高生产线智能化、自动化水平已成必然趋势。由于炸药在生产包装过程中由于各种因素从
我国在经济发展的同时也伴随着水资源的污染,并且呈现不断加剧的趋势,对我国社会经济和人们的日常生活产生了很大的危害,是我国非常关注的问题.从当前我国地下水污染的现状来
纵观世界上优秀的企业,无一不意识到服务对公司经营的重要性,对于安徽卫视来说也同样如此。服务已经成为构建安徽卫视竞争力的重要战略,2008年推出的“迎客松”贵宾服务体系
随着通信、信号处理和计算机网络技术的发展,特别是Internet在世界范围内的广泛应用,各种信息在网络中迅速传播。网络中存在大量的数字图象,使得图象成为了信息隐藏的主要载
现阶段,随着我国经济的不断地发展,我国城市建设也日趋完善.城市轨道交通上盖建筑是城市化进程中出现的崭新的建筑类型,和其他传统建筑类型相比,鲜明的城市和交通属性成为其