面向领域的语音转换后文本纠错研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:littlewolfwolfwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,人们每天产生的信息都呈指数爆炸式地增长。这些信息都蕴含着有价值的数据有待人们去挖掘。比如,银行,保险等传统行业公司,每天都会收到大量客服来电,而公司亟待从这些海量对话数据里面,进行对话质量分析,挖掘用户意图等。但在对这些数据分析之前,首先遇到的困难是,这些对话数据大多数是通过语音识别后转为文本,在语音转换过程中,由于受到噪声,用户口音等干扰,导致语音识别后的文本存在错误,从而降低了文本的可分析性。因此,运用自然语言处理的方法,结合对话自身的特性,对这些文本进行纠错,一方面能提高对话语音转换的正确率,另一方面也有利于文本数据进行进一步的分析,最大化地挖掘数据中的价值。虽然文本纠错一直以来有人研究,但大多是面向开放领域的规范文本(报纸,书刊类文本),而面对口语化程度高、特定领域文本的纠错,则鲜有研究,而且是一大挑战。在查错方面,本文提出利用组合N-gram模型,融合双向长短期记忆神经网络Bi-LSTM语言模型,对句子进行评估,提高查错的精确率。定位到错误点后,则需要进行纠错。在纠错方面,本文提出多策略产生候选集的方法,针对不同的错误类型,采取不同的方法产生候选集。首先是基于领域本体知识库与拼音串前缀树来产生候选集。因为专有名词的识别通常出错较多,使用拼音串前缀树能快速找出相应的候选词汇。在得到由本体知识库产生的候选集后,需要结合本体知识库和对话的上下文,计算出候选词汇的支持度,最终排序得到TOP-1作为纠错方案。第二策略是结合领域的语言知识库,查询词语的搭配、并结合拼音相似度等信息得出候选集,尝试对文本错误进行纠正,若领域的语言知识库没能产生有效候选集,则查询通用领域语言知识库来产生候选集合。最后,分别用候选词替换原有词语,然后用Bi-LSTM语言模型计算整个句子的概率,并以这个指标对候选集进行排序,取TOP-1作为纠正方案。在纠错知识库的构建上,本文提出结合依存句法自适应地构建领域语言知识库,使到算法能自学习到新领域中的领域词语及搭配。最终,本文以金融领域为例,设计并实现出一套面向金融领域对话文本的纠错框架,能够对金融领域内带有错误的对话进行修正,并具有良好的领域迁移能力。
其他文献
针对当前高处林果无损采摘装置缺乏,传统人工拍打、果剪采摘方式效率低、劳动强度大、果体易损伤和攀爬采摘危险系数高等实际问题,设计了一种高处林果辅助人工自动扭摘装置,
药物进入机体后,有个吸收、分布、代谢和排泄的过程,肝脏作为药物在体内代谢的主要脏器,是药物毒性反应最重要的靶器官之一。药物性肝损伤是指在服用药物过程中,由药物和(或)
目的:研究单味藏药翁布对小鼠急性炎症作用与组织内超氧化物歧化酶(SOD)关系.方法:以小白鼠为实验动物,采用二甲苯作为致炎因子,复制急性炎症模型,用藏药翁布水提取物高剂量(
移动机会网络是一种新型的移动自组织网络MANETs。在这种网络中,网络拓扑频繁变化、节点之间的链路时断时续,节点之间的接触是难以预测的,源节点和目的节点之间的端到端的完
目的:客观评价吴氏长蛇灸对脾肾两虚型慢性疲劳综合症(CFS)患者抑郁状态的改善情况,为扶阳抑阴理论在抑郁症中的治疗提供临床证据。方法:采用中央随机,将符合纳入标准的CFS患
期刊
近十年来,我国集约化畜牧业飞速发展,全国人均动物产品占有量比十年前迅猛增加.达到了中等发达国家的水平。现代畜牧业生产与我国传统的养殖业相比,由于动物及其产品的交易流通明
地形变观测资料中干扰因素较多,而地震前兆与干扰往往不易区分。通过对多年地形变观测资料的整理分析,将带有普遍性干扰因素的典型畸变图像列出,并作了简要的物理机制说明.供同仁
课外活动是学校体育的重要组成部分,是学校体育开展的重要途径和最好检验,是推动群众体育广泛开展,增强学生体质,培养学生终身体育锻炼意识,提高运动技术水平和提高学生体育
随着社会经济的不断发展,我国已经成为全世界经济发展速度最快的国家,中国正处在社会的转型期,随之而来的,社会矛盾更加的多样性、复杂性、极端性。警察作为维护社会治安大局
联盟形成一直是多agent系统(multi-agent systems,MAS)和人工智能中的一个热点课题。其中,资源结盟博弈(coalitional resource games,CRGs)同时考虑资源受限、消耗和竞争,提