论文部分内容阅读
企业将客户在使用产品时反馈的问题以元数据(运维工单)形式保存。本文以华东某国有企业为例,对元数据进行抽取清洗,获取有效的FAQ集和与FAQ集匹配的答案,并针对企业运维面向专业领域具有相对封闭且数据量大的特点,应用Hadoop生态圈中组件对海量运维数据进行计算与分析,并重点研究改进问句相似度计算模型和问句预分类方法,构建面向运维专业领域的自动问答系统,以便运维知识重用,促使用户自助获得与业务系统相关的知识,提升企业运维服务质量。主要研究内容如下:第一,设计面向限定域自动问答框架,将传统流程改进为通过计算新问句与历史问句的相似度,对新问句进行预先分类,快速匹配历史问句,实现自动问答。第二,对文本进行面向限定域分词预处理时,因为专业领域的原因,出现未登录词无法识别导致分词效果不佳的情况,通过制作专业领域字典的方法来提升分词准确率。对问句进行分词、去停用词等预处理之后进行关键词扩展,并制作词权重表,提高问句相似度计算准确率。第三,通过对问句进行分析,从句法和语义两方面改进问句相似度计算模型,加入问句长度影响因子并考虑词序和语义对问句相似度计算的影响。同时基于新问句相似度计算模型改进问句分类计算方法,避免由于样本分布不均造成分类误差,并通过使用不同实验数据的实验验证上述问句模型和分类方法的有效性,分析问句预先分类对整体性能的影响。第四,针对企业运维系统产生数据量较大的实际情况,应用大数据生态圈中组件,使用本文设计的专业词典、问句相似度模型和分类方法,分析处理元数据,实现运维自助服务。