论文部分内容阅读
本文针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。实验结果显示,相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。问答系统是一个对应答时间要求极高的系统,缩短用户等待时间能有效改善用户体验。在上述实验基础上,本文将fastText运用到问答系统用户意图识别中,实验结果显示fastText分类结果的准确率、召回率、F1值都明显高于卷积神经网络方法,实验用时为卷积神经网络用时的1.15%。同时本文进一步探究了保证分类精度不丢失的情况下,构建等价简单分类器的最小维度值,以及提升分类准确率的参数优化规则,构建了一个模型简单,参数最优的fastText中文文本分类模型。本文根据闲聊类问句的关键词不明显、范围宽泛、口语化和内容较短等语言特点,通过对闲聊类问句进行关键词抽取来优化闲聊类答案的检索。使用信息熵计算公式计算出初始候选关键词集中每个词的平均信息熵H(t),将平均信息熵的倒数作为每个顶点的初始权重对TextRank算法进行改进来抽取问句关键词,迭代计算得出每个候选关键词的权重,按照词语权重进行排序,选取排名靠前的关键词作为该方法的抽取结果。实验结果显示改进后的TextRank算法关键词抽取效果较改进前更好。为了进一步提高问句关键词抽取的准确率和召回率,本文将集合的思想引入到实验中,根据每种方法不同的优缺点,本文对TF-IDF方法和TextRank算法结果进行并集来扩充抽取结果中正确的关键词的数量。为了进一步提升准确率,本文将并集后的结果与改进的TextRank算法的结果取交集来过滤掉两种方法中不正确的关键词,结果表明准确率和F1值都有明显提高。本文设定交集结果关键词数量的阈值N,并在多次实验中得出使抽取效果最好的阈值N的大小。综上所述,本文将使用了线性分类思想的单词特征学习模型fastText应用到问答系统用户意图识别领域,通过实验验证,在保证分类准确率不丢失的情况下该模型分类速度极快,较目前分类领域主流分类方法能明显缩短分类用时。本文通过对算法改进,有效提升了问句关键词抽取效果,通过多方法融合和引入集合思想,最终实验结果显示本文提出的关键词抽取方案的抽取结果相对稳定,模型整体性能较高,验证了所提方案的可行性。