问答系统中特征提取方法研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:dhxdhxdhxdhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:問句特征是影响问句分类效果的关键因素,因此特征抽取是问句分类的关键步骤。该文提出了一种改进的基于信息增益模型的问句单词语义特征抽取方法。结合单词的语义相似度和信息增益模型计算单词的信息增益值。为了获取问句的词法特征,该文提出了一种基于序列模式挖掘的问句频繁模式挖掘方法,得到的频繁模式构成问句的词法特征空间。该文使用了三种分类器在公共的UIUC数据集上对所提方法进行了评测。优于现有的问句分类方法。
  关键词: 特征抽取; 信息增益; 特征空间; 词法特征; 句法特征
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)13-0171-02
  1引 言
  信息检索(Information Retrieval,IR)是信息分析与处理的核心问题之一[1]。降低用户的负担和提高检索的准确率一直是信息检索研究领域追求的两个重要目标,因此基于自然语言的信息检索方式天然地成为国内外学者研究的兴趣所在。问答系统[2,3](Question Answering System, QA)是信息检索系统更高级、智能的一种形式,系统中用户以自然语言对问题描述,QA给出相应的答案。
  2特征提取
  2.1基于改进的PrefixSpan算法的词法特征提取
  由于在PrefixSpan算法[4]中数据的最小单位为单个字母,以字母为最小单位进行迭代计算进行序列模式挖掘,为适应本文研究内容,对PrefixSpan算法进行修改:
  (1)将单词作为最小计算单位进行序列模式挖掘。
  (2)输出数据除了满足支持度阈值[ρ1],增加置信度阈值[ρ2],[ρ2]表示类别中包含某一频繁模式的句子占包含该模式所有句子数的比例。
  [ρ1=QpatternSum(QDB)] (1)
  [ρ2=Sum( PmaxSumClass)Sum(α)] (2)
  修改后的PrefixSpan算法(FE-PrefixSpan)如表1中FE-PrefixSpan算法所示。[α]代表由一个以上单词组成的单词序列,在修改后的算法中进行序列模式挖掘的最小数据单位为单词,如果[α]在句子中出现的频率大于支持度阈值[ρ1]且置信度大于[ρ2],则[α]会被当做频繁序列模式[5]做为问题分类的特征。[ρ1]通过公式(1)计算,[SumQDB]代表问题的总数目,[Qpattern]包含模式[α]的句子总数。公式(2)计算[ρ2],[PmaxSumClass]代表含有模式[α]数目最多的类中的含有模式[α]的句子,[Sumα]是所有包含[α]模式的句子总数。
  方法:
  1. 扫描[QS|α],找到满足最小支持度[ρ1]的频繁项[b],[b]能够连接到序列模式[α]最后一个元素或者[]附加到序列模式[α]后面构成一个序列模式。
  2. 对每个频繁项[b],连接到序列模式[α]后面构成序列模式[α’],如果[α’]满足置信度[ρ2]的阈值则输出[α’],否则进行步骤3.
  3. 对每个[α’],构造[α’]的投影数据库[QS|α’],再调用[FE-PrefixSpan(α’, l 1, QS|α’ )]函数。 ]
  2.2基于单词相似度改进的信息增益特征提取方法
  根据信息增益[6]选取问句中的类别特征,其主要是通过计算组成问句单词的权值,以挖掘词汇与类别之间的隐藏关联程度[7],结合单词语义相似度[8-10]对IG方法进行改进,结合单词语义改进后的信息增益特征抽取过程用表2中的算法描述。
  为了区别原有IG公式,将改进后的IG公式以公式(3)表示如下:
  [IGw=-i=1nPcilog2Pci]
  [ Pwi=1nPci|wlog2Pci|w]
  [ Pwi=1nPci|wlog2Pci|w] (3)
  根据公式可得[w]的信息增益取决于[count(w)]和[count(c,w)]的值。对于给定的句子[s],如果单词[w]在句子[s]中出现,则[countw]的值加1,否则值不变([count(w)]初始值为0)。如果单词[w]在句子[s]中出现且句子[s]属于[c]类,则[count(c,w)]的值加1,否则值不变([count(c,w)]初始值为0)。但是,以上所述关于[count(w)]的计算方法并不准确。基于语义相似度改进的关于[count(w)]和[count(c,w)]的计算方法(SIM-IG-Count)如表3所示。
  3 结论
  本文主要提出并评价了一种用于问句分类的混合特征抽取方法。为了减少特征抽取的计算开销,本文考虑了词法特征和简单语义特征。将词语间的相似度引入信息增益公式中,利用公式得到问句的语义特征。该算法通过计算组成问句的所有单词的权值来评估单词的重要性,根据单词的重要程度选取高价值词汇组成表示问句的特征向量,用于问句分类。此外,本文还提出一种使用序列模式挖掘算法来获取词法特征。通过该方法抽取的词法特征结合单词语义特征用于问句分类,在多种分类器中进行分类实验。所提方法在UIUC数据集上进行了评价,与已有方法相比,该方法大类准确率达到96%,小类准确率达到90.4%,优于现今存在的分类方法。
  参考文献:
  [1] Ioannakis G, Koutsoudis A, Pratikakis I et al. RETRIEVAL-An Online Performance Evaluation Tool for Information Retrieval Methods.IEEE Transactions on Multimedia, 2017, 20(1):119-127.
  [2] 范士喜,王晓龙,王轩,等.面向真实环境的问句分析方法.电子学报,2010,38(5): 1131-1135.
  [3] 高明霞, 刘椿年. 基于约束的自然语言问题到 OWL 的语义映射方法研究. 电子学报, 2007, 35(8): 1598-1602.
  [4]公伟, 刘培玉, 贾娴. 基于改进 PrefixSpan 的序列模式挖掘算法[J]. 计算机应用, 2011, 31(9): 2405-2407.
  [5] 吴迪. 基于加权相似度的序列聚类算法研究[D]. 秦皇岛: 燕山大学, 2014.
  [6]Azhagusundari B, Thanamani A S. Feature selection based on information gain[J]. International Journal of Innovative Technology and Exploring Engineering (IJITEE) ISSN, 2013: 2278-3075.
  [7] 张春生, 李艳, 图雅. 基于属性拓展的数据挖掘预处理技术研究[J]. 计算机技术与发展, 2014, 24(3): 79-81.
  [8] Pirró G. A semantic similarity metric combining features and intrinsic information content. Data
其他文献
针对"过去的记录"监控"未来的偿付"的信用,本文提出期限的错配在逻辑上导致信用的内在脆弱性,给出破解悖论的理论方法,包括施加外部约束、延长博弈过程、风险冲击预期,同时对不同
通用、IBM、西尔斯的产业霸权已经不在,奇异、摩托罗拉、康宁随之崛起,在这场没有罗盘的市场竞争中,企业需要的是——
2020年的"618",注定不平凡。作为疫情后市场销售复苏的"第一战",各品牌和平台都摩拳擦掌,使出看家本领,结果却是几家欢喜几家愁。在这场"拼杀"中,海尔智家再次以胜者的姿态脱
河北是全国农村"四清"运动的发源地。河北农村"四清"运动经历了以清经济为主的"小四清"和以清政治为主的"大四清"2个阶段。河北独创阶段的"小四清"中产生的保定"四清"经验成为中央杭州会
1996年的元旦钟声,标志着我们又向2000年迈近了一步。面对庄严的即将到来的世纪之交,存在或者说矗立着大相径庭的两种社会姿态。一方面,在神秘主义的思潮中,不乏“世纪末”的
<正>进入新时代,智能化已经在各个领域得到应用,船舶这个几乎与人类悠久历史同步发展的古老学科也不例外。由我国研制的全球首艘智能船舶"大智"号于2017年12月5日在上海正式
在城市化快速发展的进程中,农业也转变了传统的生产模式,城郊的农田土地利用方式进行了新的探索,农业主题公园不仅能满足农作物生产,还满足城市居民亲近自然的精神文化需求,
基质金属蛋白酶(matrix metalloproteinases,MMPs)是一种依赖锌离子并以细胞外基质(extracellular matrix,ECM)成分为水解底物的蛋白水解酶,MMPs通过对ECM成分的水解,影响其
目的应用超微剂量肝素加低分子右旋糖酐,对92例血清D-二聚体阳性的危重新生儿进行观察.方法92例患儿血清D-二聚体阳性,随机分为两组,每组46例,剔除自动放弃治疗9例,共观察83
打通线上与线下的自营体系,实行全国销售渠道执行同货源、同期、同价的销售策略,是格力新零售的核心战略。在2020年这场因疫情而成为史上最大力度的"618"上,格力继2019年首次