论文部分内容阅读
当今时代,网络技术和手机性能的飞速提升,导致手机是日常生活随处可见的一种产品。我们每天会使用手机产生许许多多的文字信息,比如信息、聊天记录、评论语句、新闻,尤其在智能手机中,人们经常使用微信、QQ中的语音来进行聊天,以及使用手机自带的语音助手,导致语音文本数据迅速增加。如果计算机能够自动对语音文本数据进行辨识和处理,将极大提升做事效率。所以,我们使用深度学习的方法来对小米手机小爱语音助手中的文本数据进行分类。通过对语音文本的分类,从而实现对用户每天的需求进行精准的分析,对小米手机的某些功能的提升与发展具有指导意义。本文首先集中介绍了传统的语音文本分类相关理论技术,之后介绍了深度学习中的Word2vec模型,卷积神经网络和长短期记忆网络模型。然后说明了实验的语音文本数据来源,本次实验使用的是小米手机小爱语音助手里面的语音文本数据,该数据集由文本数据和分类标签两部分组成,一共有10000个训练集,2000个验证集,1000个测试集。本文使用结巴分词对原始数据进行分词处理,分词后去除跟分类无关的停用词,得到我们所需要的数据形式。先用传统方法中的向量空间模型,使用TF-IDF方法将文本数据向量化,通过机器学习的分类算法对数据进行分类。再使用深度学习中的Word2vec模型来得到词向量,然后通过卷积神经网络和长短期记忆网络对语音文本数据分类。由于深度学习方法是效果最好的分类方法,使用该方法对测试集数据来进行分类,对出现次数最多的类别所对应的功能提出相关的建议。本文实证分析得出的结论有:第一,在对语音文本进行分类时候,通过向量空间模型使用传统的机器学习方法来对其分类,支持向量机分类的效果最好,随机森林的分类效果第二,第三是逻辑回归,最差的是朴素贝叶斯。第二,在对语音文本进行分类时候,如果通过深度学习中的Word2vec模型得到词向量,并使用深度学习模型中的卷积神经网络和长短期记忆网络对小米语音文本进行类别判定,由实验结果显示深度学习模型的分类效果超过了传统的机器学习算法,其中长短期记忆网络的分类效果略高于卷积神经网络,比传统方法中效果最好的支持向量机高了7个百分点。基于此提出两个建议:对于类似的语音文本数据,可以采用深度学习中的Word2vec模型和长短期记忆网络进行分类。对于小米手机,应该更加注重对music(音乐)、alarm(闹钟)、samrtMiot(智能家居)这三个功能进行一定的改进或创新。