基于fastText的问答系统用户意图识别与关键词抽取研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:taitaitaihaole
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。实验结果显示,相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。问答系统是一个对应答时间要求极高的系统,缩短用户等待时间能有效改善用户体验。在上述实验基础上,本文将fastText运用到问答系统用户意图识别中,实验结果显示fastText分类结果的准确率、召回率、F1值都明显高于卷积神经网络方法,实验用时为卷积神经网络用时的1.15%。同时本文进一步探究了保证分类精度不丢失的情况下,构建等价简单分类器的最小维度值,以及提升分类准确率的参数优化规则,构建了一个模型简单,参数最优的fastText中文文本分类模型。本文根据闲聊类问句的关键词不明显、范围宽泛、口语化和内容较短等语言特点,通过对闲聊类问句进行关键词抽取来优化闲聊类答案的检索。使用信息熵计算公式计算出初始候选关键词集中每个词的平均信息熵H(t),将平均信息熵的倒数作为每个顶点的初始权重对TextRank算法进行改进来抽取问句关键词,迭代计算得出每个候选关键词的权重,按照词语权重进行排序,选取排名靠前的关键词作为该方法的抽取结果。实验结果显示改进后的TextRank算法关键词抽取效果较改进前更好。为了进一步提高问句关键词抽取的准确率和召回率,本文将集合的思想引入到实验中,根据每种方法不同的优缺点,本文对TF-IDF方法和TextRank算法结果进行并集来扩充抽取结果中正确的关键词的数量。为了进一步提升准确率,本文将并集后的结果与改进的TextRank算法的结果取交集来过滤掉两种方法中不正确的关键词,结果表明准确率和F1值都有明显提高。本文设定交集结果关键词数量的阈值N,并在多次实验中得出使抽取效果最好的阈值N的大小。综上所述,本文将使用了线性分类思想的单词特征学习模型fastText应用到问答系统用户意图识别领域,通过实验验证,在保证分类准确率不丢失的情况下该模型分类速度极快,较目前分类领域主流分类方法能明显缩短分类用时。本文通过对算法改进,有效提升了问句关键词抽取效果,通过多方法融合和引入集合思想,最终实验结果显示本文提出的关键词抽取方案的抽取结果相对稳定,模型整体性能较高,验证了所提方案的可行性。
其他文献
目的研究帕金森氏病相关蛋白PINK1在线粒体外膜上定位的具体机制。方法以体外培养的HEK293T细胞转染表达不同蛋白的真核表达质粒,然后加入DMSO作为对照或者加入线粒体解偶联
2012年以来贵州创建扶贫开发攻坚示范区的总体模式被概括为大扶贫模式,即当地党委政府真正将扶贫开发作为一项中心工作,从组织保障、资源和人力投入、方式方法创新等各方面予
哈姆雷特是莎士比亚塑造的一个文艺复兴时期的巨人型青年,具备了文艺复兴时期人文主义者心目中一切理想的品质。但是,哈姆雷特也有软弱、逞强及宿命等性格弱点,因此无法在现
目的:观察生血宁片对比格(Beagle)犬有无长期毒性作用。方法:Beagle犬按1 000、500和250mg蚕砂提取物/kg(20、10、5片生血宁片/kg)口服给药,相当于该品临床成人重度患者最大
<正>中国污水处理概念厂专家委员会由6位环境领域著名专家发起成立,他们是:中国工程院院士、中国科学院生态环境研究中心研究员曲久辉,清华大学教授、环境学院副院长王凯军,
为有效降低车道变换行为诱发事故的风险性,提出一种基于Logistic模型的驾驶人换道意图识别方法。利用faceLAB视觉追踪系统,通过真实环境下的实车测试,结合换道前驾驶人对后视
1978年由W.M.Goubau等人提出MT阻抗张量估算的互功率方法,未能在实际中应用。互功率法包括自功率谱和互功率谱两种估算方法。本文把两种估算法结合在一个程序中,用于实际的大
<正>高中物理比初中难度大,对能力的要求高,很多学生学得不好。特别是高一的学生,初中刚升入高一时没注意好衔接,导致整个高中物理都学不好。所以做好初高中的衔接是非常关键
论文介绍了最大轨温差幅度达到 80 3℃、R =35 0m曲线上铺设无缝线路的试验及其结果 ,突破了TB2 0 98 89关于无缝线路铺设曲线半径不小于 40 0m、最大轨温差幅度不超过 72℃