【摘 要】
:
问题分类是自动问答系统的关键步骤,对计算机准确理解自然语言问题的真实含义起着至关重要的作用。中文语言的意合性、无时态变化、语序灵活性以及词的平均依存距离远等特点,
论文部分内容阅读
问题分类是自动问答系统的关键步骤,对计算机准确理解自然语言问题的真实含义起着至关重要的作用。中文语言的意合性、无时态变化、语序灵活性以及词的平均依存距离远等特点,造成了中文问题分类的困难。根据中文依存语法,问句可解析成依存关系树,而中文问句的常见自然语言结构特征,自然就会反映在依存关系树集中频繁出现的特征子结构中。亦即,可以从中文问句的依存关系树库中,挖掘中文问题的特征子结构,以辅助进行中文问题分类。本文即致力于研究中文问句依存关系树库的挖掘问题,并将挖掘结果应用于问题分类。本文主要研究工作如下:(1)由于条件随机场模型应用于中心词标注时未能充分利用中心词特征间存在的深层统计关系,提出利用中文问句的依存关系树结构,通过挖掘问句依存关系树所蕴藏的中心词各维度特征之间的统计概率关系,来正确标注中心词的新方法。该方法通过挖掘频繁依存子树模式以生成相应统计规则模式,并使用频繁依存子树模式统计规则对中心词的条件随机场模型初始标注进行校正,将条件随机场模型的中心词标注准确率进一步提高了3%左右。此方法建立在严格的统计语料基础上,标注的稳定性、适应性和鲁棒性较好。(2)对频繁依存子树模式生成的大量统计规则,本文探讨了依存子树规则冗余的定义,结合问句中心词的特点,提出了在生成规则时与应用规则时的冗余消减方式。通过删减简单冗余、严格冗余的、低置信度等依存子树冗余规则使得规则数量明显减少,而中心词标注的准确率保持稳定。(3)提出了类别频繁子树模式分类规则生成算法,以挖掘不同类别问句在依存关系树上的频繁结构特征,补充和完善疑问词-类别库与疑问词+中心词-类别库,并结合贝叶斯分类模型,实现规则与统计相结合的问题分类方法。试验表明,此方法分类准确率较现有方法显著提高。
其他文献
网络教育技术标准是保障教育资源共享和系统互操作的根本措施,本文介绍了多种网络教育技术标准。其中SCORM(Sharable Content Object Reference Model)以其设计理念的先进性
软件可靠性预测是一个越来越受重视的领域。可靠性预测的目的是量化软件可靠性状态和行为,帮助开发可靠的软件和检测软件的可靠性。本文对软件可靠性预测模型进行了比较研究,提
电力系统是一个大系统,电能的生产、运送及分配是在一个辽阔的区域内进行的,加上电磁过程本身的快速性,所以对电力系统运行控制提出了非常高的要求。电力调度自动化系统由信息就地处理自动化系统和信息集中处理自动化系统两部分组成,信息就地处理自动化系统的特点是能对电力系统的情况做出快速的反应;信息集中处理自动化系统也称电力系统调度自动化系统,它可以通过对设置在各发电厂和变电站的远程终端(RTU)采集电网运行的
在软件可靠性领域中,基于失效数据建模的可靠性预测方法主要利用随机过程与统计分析方法或通过机器学习与时间序列分析方法,研究软件失效与软件可靠性之间的关系。由于软件失效
在现实生活中,我们获得的信息有时是模糊的,有时是不准确的,有时是不足够的。由此可以看出,不确定性是信息的一大特点,很多领域像经济、工程、环境等都存在着很多不确定的、不精确
高等院校教务管理工作的内容相当复杂,排课是其中的一个重要环节。手工排课不仅占用大量的人力、花费太多的时间,而且排出的课表往往不尽人意。因此,如何利用计算机快速、有效地
随着组件技术在软件开发中日益广泛的应用,对组件系统质量的要求也不断提高。因此保证组件系统可靠性的软件测试技术,也面临着不断革新的需要。由于组件自身的一些特点,使得
专家系统是人工智能领域的一个分支,将专家系统技术应用于煤性—炉型耦合体系中,利用该领域专家的经验和知识来设计煤性—炉型耦合专家系统,有助于提高燃煤电厂的经济效率和安全
随着信息化、网络化、数字化成为社会发展的大趋势,迅猛的信息化浪潮冲击着人类社会的各个领域。各高校纷纷将“数字化”引入到教学、科研、管理和信息共享等学校日常工作和生
随着计算机网络的迅速发展,网络管理日益得到人们的重视。网络管理已经成为现代信息网络中最为重要的内容。通过对网络管理监测系统的研究及应用,可以有效的帮助网络管理员进行