基于深度学习的小米语音文本分类研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户：wcf333

【摘要】

：

当今时代,网络技术和手机性能的飞速提升,导致手机是日常生活随处可见的一种产品。我们每天会使用手机产生许许多多的文字信息,比如信息、聊天记录、评论语句、新闻,尤其在智

【作者】

：

刘新峰

【出处】

：

中南财经政法大学

【发表日期】

：

2004年期

【关键词】

：

语音文本数据深度学习向量空间模型语音文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今时代,网络技术和手机性能的飞速提升,导致手机是日常生活随处可见的一种产品。我们每天会使用手机产生许许多多的文字信息,比如信息、聊天记录、评论语句、新闻,尤其在智能手机中,人们经常使用微信、QQ中的语音来进行聊天,以及使用手机自带的语音助手,导致语音文本数据迅速增加。如果计算机能够自动对语音文本数据进行辨识和处理,将极大提升做事效率。所以,我们使用深度学习的方法来对小米手机小爱语音助手中的文本数据进行分类。通过对语音文本的分类,从而实现对用户每天的需求进行精准的分析,对小米手机的某些功能的提升与发展具有指导意义。本文首先集中介绍了传统的语音文本分类相关理论技术,之后介绍了深度学习中的Word2vec模型,卷积神经网络和长短期记忆网络模型。然后说明了实验的语音文本数据来源,本次实验使用的是小米手机小爱语音助手里面的语音文本数据,该数据集由文本数据和分类标签两部分组成,一共有10000个训练集,2000个验证集,1000个测试集。本文使用结巴分词对原始数据进行分词处理,分词后去除跟分类无关的停用词,得到我们所需要的数据形式。先用传统方法中的向量空间模型,使用TF-IDF方法将文本数据向量化,通过机器学习的分类算法对数据进行分类。再使用深度学习中的Word2vec模型来得到词向量,然后通过卷积神经网络和长短期记忆网络对语音文本数据分类。由于深度学习方法是效果最好的分类方法,使用该方法对测试集数据来进行分类,对出现次数最多的类别所对应的功能提出相关的建议。本文实证分析得出的结论有:第一,在对语音文本进行分类时候,通过向量空间模型使用传统的机器学习方法来对其分类,支持向量机分类的效果最好,随机森林的分类效果第二,第三是逻辑回归,最差的是朴素贝叶斯。第二,在对语音文本进行分类时候,如果通过深度学习中的Word2vec模型得到词向量,并使用深度学习模型中的卷积神经网络和长短期记忆网络对小米语音文本进行类别判定,由实验结果显示深度学习模型的分类效果超过了传统的机器学习算法,其中长短期记忆网络的分类效果略高于卷积神经网络,比传统方法中效果最好的支持向量机高了7个百分点。基于此提出两个建议:对于类似的语音文本数据,可以采用深度学习中的Word2vec模型和长短期记忆网络进行分类。对于小米手机,应该更加注重对music(音乐)、alarm(闹钟)、samrtMiot(智能家居)这三个功能进行一定的改进或创新。

其他文献

移动知识付费平台变现模式与优化研究

本研究通过对当前国内主流的知识付费平台喜马拉雅FM、得到、知乎Live等案例的分析,从产品策略、价格策略、渠道策略、促销策略四个方面,围绕移动知识付费平台的发展现状、盈利模式、知识变现影响因素等现实问题,进行了知识变现模式的对比研究,分析了三种模式的优缺点,并在此基础上提出了基于长尾理论的知识变现模式,即L-KRM模式。L-KRM模式就是应用长尾理论和分享经济理论作为支撑,将知识生产者的认知盈余通

学位

移动知识付费平台知识变现模式L-KRM模式长尾理论

氯化聚乙烯的S型流动连续流化床干燥

在已开发的流化床、振动流化床干燥器的基础上 ,提出并实现了物料S型流动的固定流化床工艺 ,研制开发了S型流动连续式固定流化床干燥器 ,应用于氯化聚乙烯 (CPE)滤饼的干燥 ,

期刊

氯化聚乙烯流化床干燥

归芍泻心汤配合灌肠治疗慢性非特异性溃疡性结肠炎48例临床观察

应用自拟归芍泻心汤口服、西瓜霜散剂保留灌肠治疗慢性非特异性溃疡性结肠炎４８例，总有效率为９７．９２％。同时设对照组３１例，运用西药治疗，总有效率为６７．７４％，经统计学处理，差异有非常显著性意义（Ｐ＜０．０１），表明治疗

期刊

结肠炎溃疡性/中药疗法@归芍泻心汤/治疗应用@西瓜霜散剂/治疗应用投药.口服灌肠

自由贸易区战略的空间布局与问题因应

在当前复杂的国际政治经济形势下,自觉规划自由贸易区战略的空间布局刻不容缓。借鉴中国-东盟自由贸易区建设的成功经验,积极推动上海合作组织自由贸易区研究与建设,有序安排

期刊

自由贸易区空间布局战略

率先突破:中国农业银行总行区块链项目正式上线

<正>近日,基于趣链科技底层区块链平台,中国农业银行总行上线了基于区块链的涉农互联网电商融资系统,并于8月1日成功完成首笔线上订单支付贷款。这是国内银行业首次将区块链

期刊

中国农业银行总行区块链区块链技术

论高效传媒营销团队的特征

营销工作是传媒企业发展壮大的重要依据,高效传媒营销团队的构建是传媒企业管理的重中之中。因此,打造一支优秀高效的营销团队是传媒企业营销工作的核心。本文在深入分析传媒

期刊

传媒营销团队高效特征

基于政策工具量化分析的我国罕见病医药保障政策研究

目的探讨我国罕见病相关政策体系的侧重点与不足,为我国罕见病相关政策的制定与优化提供参考意见。方法访问我国国家卫生健康委员会、国家财政部、国家人力资源和社会保障

期刊

罕见病政策分析政策工具利益相关者

采用体外预应力加固简支实腹钢梁的设计计算

体外预应力加固方法是提高钢梁承载能力、改善其受力性能的一种简单易行的方法。本文对体外预应力加固简支实腹钢梁时体外预应力筋的线形布置、预应力损失以及内力增量的计算

期刊

体外预应力加固钢梁设计计算

蒙医疗术学研究新进展

蒙医疗术学是人类文明的瑰宝,是蒙医学的重要组成部分,它集中体现了蒙医学的特点,具有独特的理论体系。近年来,随着"全球绿色消费"潮流的兴起,蒙医疗术学的发展日益引起世人

期刊

蒙医疗术学研究进展

家属参与护理对急性胰腺炎患者情绪及生活质量的影响

目的探讨家属参与护理对急性胰腺炎患者情绪及生活质量的影响。方法2016年2月—2017年12月在该院住院治疗的急性胰腺炎患者84例随机分为干预组与对照组,每组42例。对照组采用

期刊

家属参与护理急性胰腺炎情绪生活质量

基于深度学习的小米语音文本分类研究

其他学术论文