【摘 要】
:
自动问答系统的研究目标是正确地理解用户以自然语言描述的问题,进而高效、准确地反馈给用户答案。问句分类是问答系统的第一步,准确地对问句分类不仅能够有效地缩小答案搜索
论文部分内容阅读
自动问答系统的研究目标是正确地理解用户以自然语言描述的问题,进而高效、准确地反馈给用户答案。问句分类是问答系统的第一步,准确地对问句分类不仅能够有效地缩小答案搜索的范围,而且能够有效地提升答案检索的准确率。虽然自然语言处理和机器学习技术已经显著地改善了问句分类的水平,但问句分类的性能及准确率仍有待进一步提高。问句特征是影响问句分类效果的关键因素,因此特征抽取是问句分类的关键步骤。本文提出了一种改进的基于信息增益模型的问句单词语义特征抽取方法。首先利用WordNet计算问句中单词的语义相似度,然后结合单词的语义相似度和信息增益模型计算单词的信息增益值,根据信息增益值来评估单词的重要性,最后选取高增益值的词汇构成问句的语义特征空间。为了获取问句的词法特征,本文将问句表示为单词序列,提出了一种基于序列模式挖掘的问句频繁模式挖掘方法,得到的频繁模式构成问句的词法特征空间。本文使用了三种分类器在公共的UIUC数据集上对所提方法进行了评测。实验结果表明支持向量机的分类效果要优于朴素贝叶斯分类器和C4.5分类器,基于支持向量机的大类准确率为96%,小类准确率为90%,优于现有的问句分类方法。此外,本文所提的特征抽取方法由于不需要对问句进行语法解析,因此有效地节省了计算开销。
其他文献
笔者在吉林师范大学就读研究生期间,承担了吉林动画学院举办的国际游戏论坛的交传译员。该论坛为较高水平的学术论坛,邀请了来自中外的知名学者,这也提升了对译者的要求。此
纵观中日两国对日语连体修饰节及汉译的研究可以发现,日语的“连体修饰节+主名词”与中文的“定语+中心语”并非总是对应。益冈隆志(2011)中提到,句子就是对事态的叙述,并将
随着互联网技术的不断深化和发展,电子政务以及其快速、迅猛的势头正在侵入我们的生活,为整个现代化社会翻开了一个崭新的篇章。进入21世纪以后,网络已经成为人们生活中不可
本文针对不相交多边形序列遍历问题的近似求解算法进行研究。不相交的任意多边形遍历问题是NP难题,因此本文研究目标是设计一个近似求解算法,对于不相交多边形遍历问题,找到
本文主要针对平面上相邻可能相交凸多边形序列的遍历问题进行研究,目标是寻找一条从起点s出发,按照它们事先约定好的顺序依次遍历每个凸多边形,最终到达终点t的最短路径。该
同一时期的壁画装饰图案拥有艺术创作的共性,这些共性表现在图案的总体布局以及单位元素的构图规则上,根据这些信息我们可以对大量年代信息不明确的图案进行分类。本文主要针
自组织链表是一种实用的数据结构,可以根据访问序列动态调整列表结构,适应访问模式,目的是减少平均访问时间并提高链表的性能。如果被访问的数据局部性较强,自组织链表能够比
随着互联网以及多媒体技术的飞速发展,使得数字视频在人们的日常生活中越来越普及。人们可以方便的使用手机等便携设备拍摄数字视频,在线视频播放网站如雨后春笋般涌现,大型
信息时代社交网络飞速发展,逐渐成为了人们生活不可或缺的一部分,加上全球定位系统(GPS)的广泛应用和用户对于兴趣点(point of interest)分享的需求,基于位置的社交网络(Loca
本文借助贸易引力模型和多元线性回归模型探究中国与“一带一路”的双边贸易和经贸关系现状,在最基本的贸易引力模型上扩展,加入建交时间、人口密度、距离等变量,以“一带一