论文部分内容阅读
在信息技术高速发展的时代,如何获取信息和传递信息是值得关注的两大问题。人机对话系统的研究正是聚焦在这两大问题上,它力图使信息的获取和传递变得更加轻松自然,使人们可以更加方便自如地与计算机进行信息交互。本文在介绍传统人机对话系统的基础上,针对传统人机对话系统存在的缺陷和问题,首次提出了一种基于云计算的人机对话系统,并设计了一种新的中文分词算法和大规模语料库处理方法。然后整合云计算技术与人机交互领域的研究热点,建立一个基于Hadoop框架的人机对话系统。最后通过实验证明该系统具有速度快,准确率高的特点。本文着重对以下内容进行了探讨和研究:1)建立一个基于Hadoop框架的云计算平台,在此平台上部署人机对话系统,结合分布式MapReduce算法模型的优点,实现各个环节的并行化,从而提高系统效率。2)提出一种新的中文分词方法,结合概率统计、字符串匹配和语义理解方法的优点,实现一种级联分层的中文分词算法(Cascaded Chinese words segmentation,CCWS)。该算法的思想是,首先初步得到基本涵盖最优结果在内的尽量小的粗分结果集。然后通过分层过滤,上层无法解决的歧义留到下层处理,每一层根据分词过程中遇到的具体问题采取相应的策略。最终得到最优的分词结果。实验表明该方法的召回率和准确率分别达到98.59%和98.89%,比普通方法提高了1至2个百分比,在云计算平台上应用后,分词速度也得到了很大的提高。3)构建基于HBase分布式存储的大规模语料问答对库。利用Google API收集特定领域的网页,通过正则表达式匹配收集问答对;经分词处理后,利用MapReduce算法构建分布式倒排索引,最后将建好的索引文件存储于分布式数据库HBase中,为后续快速检索打下基础。4)采用分布式技术设计云计算信息检索,将原始数据和倒排索引数据存储于HBase中。在查询时,先从倒排索引表中获取索引文件,然后根据索引信息读取原始数据,返回给用户。由于HBase集成MapReduce框架,查询可以在各个节点间并行进行,提高了并发性能;另外,由于倒排索引文件规模远远小于源数据的规模,也可以缩短搜索时间。这两点可以大大缩短查询响应时间。5)最后,本文为验证基于云计算的人机对话系统的实用性,设计了基于数据结构课程的语音智能教学系统,包括语音点播式教学和语音智能问答。将基于云计算的人机对话系统关键技术应用于语音智能问答部分,学生可以在课程复习时提出问题,由系统实时地作出解答。对学生以语音的形式提出的问题,进行语音识别,然后采用CCWS算法进行分词处理,提取出关键词;最后根据改进的TF-IDF方法在语料问答库中找出匹配度最高的答案,以语音的形式返回给学生。实验表明,本文提出的基于云计算的人机对话系统具有准确度基本满足实际需求、查询速度快的特点,具有一定的实用价值。