论文部分内容阅读
摘要:問句特征是影响问句分类效果的关键因素,因此特征抽取是问句分类的关键步骤。该文提出了一种改进的基于信息增益模型的问句单词语义特征抽取方法。结合单词的语义相似度和信息增益模型计算单词的信息增益值。为了获取问句的词法特征,该文提出了一种基于序列模式挖掘的问句频繁模式挖掘方法,得到的频繁模式构成问句的词法特征空间。该文使用了三种分类器在公共的UIUC数据集上对所提方法进行了评测。优于现有的问句分类方法。
关键词: 特征抽取; 信息增益; 特征空间; 词法特征; 句法特征
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)13-0171-02
1引 言
信息检索(Information Retrieval,IR)是信息分析与处理的核心问题之一[1]。降低用户的负担和提高检索的准确率一直是信息检索研究领域追求的两个重要目标,因此基于自然语言的信息检索方式天然地成为国内外学者研究的兴趣所在。问答系统[2,3](Question Answering System, QA)是信息检索系统更高级、智能的一种形式,系统中用户以自然语言对问题描述,QA给出相应的答案。
2特征提取
2.1基于改进的PrefixSpan算法的词法特征提取
由于在PrefixSpan算法[4]中数据的最小单位为单个字母,以字母为最小单位进行迭代计算进行序列模式挖掘,为适应本文研究内容,对PrefixSpan算法进行修改:
(1)将单词作为最小计算单位进行序列模式挖掘。
(2)输出数据除了满足支持度阈值[ρ1],增加置信度阈值[ρ2],[ρ2]表示类别中包含某一频繁模式的句子占包含该模式所有句子数的比例。
[ρ1=QpatternSum(QDB)] (1)
[ρ2=Sum( PmaxSumClass)Sum(α)] (2)
修改后的PrefixSpan算法(FE-PrefixSpan)如表1中FE-PrefixSpan算法所示。[α]代表由一个以上单词组成的单词序列,在修改后的算法中进行序列模式挖掘的最小数据单位为单词,如果[α]在句子中出现的频率大于支持度阈值[ρ1]且置信度大于[ρ2],则[α]会被当做频繁序列模式[5]做为问题分类的特征。[ρ1]通过公式(1)计算,[SumQDB]代表问题的总数目,[Qpattern]包含模式[α]的句子总数。公式(2)计算[ρ2],[PmaxSumClass]代表含有模式[α]数目最多的类中的含有模式[α]的句子,[Sumα]是所有包含[α]模式的句子总数。
方法:
1. 扫描[QS|α],找到满足最小支持度[ρ1]的频繁项[b],[b]能够连接到序列模式[α]最后一个元素或者[]附加到序列模式[α]后面构成一个序列模式。
2. 对每个频繁项[b],连接到序列模式[α]后面构成序列模式[α’],如果[α’]满足置信度[ρ2]的阈值则输出[α’],否则进行步骤3.
3. 对每个[α’],构造[α’]的投影数据库[QS|α’],再调用[FE-PrefixSpan(α’, l 1, QS|α’ )]函数。 ]
2.2基于单词相似度改进的信息增益特征提取方法
根据信息增益[6]选取问句中的类别特征,其主要是通过计算组成问句单词的权值,以挖掘词汇与类别之间的隐藏关联程度[7],结合单词语义相似度[8-10]对IG方法进行改进,结合单词语义改进后的信息增益特征抽取过程用表2中的算法描述。
为了区别原有IG公式,将改进后的IG公式以公式(3)表示如下:
[IGw=-i=1nPcilog2Pci]
[ Pwi=1nPci|wlog2Pci|w]
[ Pwi=1nPci|wlog2Pci|w] (3)
根据公式可得[w]的信息增益取决于[count(w)]和[count(c,w)]的值。对于给定的句子[s],如果单词[w]在句子[s]中出现,则[countw]的值加1,否则值不变([count(w)]初始值为0)。如果单词[w]在句子[s]中出现且句子[s]属于[c]类,则[count(c,w)]的值加1,否则值不变([count(c,w)]初始值为0)。但是,以上所述关于[count(w)]的计算方法并不准确。基于语义相似度改进的关于[count(w)]和[count(c,w)]的计算方法(SIM-IG-Count)如表3所示。
3 结论
本文主要提出并评价了一种用于问句分类的混合特征抽取方法。为了减少特征抽取的计算开销,本文考虑了词法特征和简单语义特征。将词语间的相似度引入信息增益公式中,利用公式得到问句的语义特征。该算法通过计算组成问句的所有单词的权值来评估单词的重要性,根据单词的重要程度选取高价值词汇组成表示问句的特征向量,用于问句分类。此外,本文还提出一种使用序列模式挖掘算法来获取词法特征。通过该方法抽取的词法特征结合单词语义特征用于问句分类,在多种分类器中进行分类实验。所提方法在UIUC数据集上进行了评价,与已有方法相比,该方法大类准确率达到96%,小类准确率达到90.4%,优于现今存在的分类方法。
参考文献:
[1] Ioannakis G, Koutsoudis A, Pratikakis I et al. RETRIEVAL-An Online Performance Evaluation Tool for Information Retrieval Methods.IEEE Transactions on Multimedia, 2017, 20(1):119-127.
[2] 范士喜,王晓龙,王轩,等.面向真实环境的问句分析方法.电子学报,2010,38(5): 1131-1135.
[3] 高明霞, 刘椿年. 基于约束的自然语言问题到 OWL 的语义映射方法研究. 电子学报, 2007, 35(8): 1598-1602.
[4]公伟, 刘培玉, 贾娴. 基于改进 PrefixSpan 的序列模式挖掘算法[J]. 计算机应用, 2011, 31(9): 2405-2407.
[5] 吴迪. 基于加权相似度的序列聚类算法研究[D]. 秦皇岛: 燕山大学, 2014.
[6]Azhagusundari B, Thanamani A S. Feature selection based on information gain[J]. International Journal of Innovative Technology and Exploring Engineering (IJITEE) ISSN, 2013: 2278-3075.
[7] 张春生, 李艳, 图雅. 基于属性拓展的数据挖掘预处理技术研究[J]. 计算机技术与发展, 2014, 24(3): 79-81.
[8] Pirró G. A semantic similarity metric combining features and intrinsic information content. Data
关键词: 特征抽取; 信息增益; 特征空间; 词法特征; 句法特征
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)13-0171-02
1引 言
信息检索(Information Retrieval,IR)是信息分析与处理的核心问题之一[1]。降低用户的负担和提高检索的准确率一直是信息检索研究领域追求的两个重要目标,因此基于自然语言的信息检索方式天然地成为国内外学者研究的兴趣所在。问答系统[2,3](Question Answering System, QA)是信息检索系统更高级、智能的一种形式,系统中用户以自然语言对问题描述,QA给出相应的答案。
2特征提取
2.1基于改进的PrefixSpan算法的词法特征提取
由于在PrefixSpan算法[4]中数据的最小单位为单个字母,以字母为最小单位进行迭代计算进行序列模式挖掘,为适应本文研究内容,对PrefixSpan算法进行修改:
(1)将单词作为最小计算单位进行序列模式挖掘。
(2)输出数据除了满足支持度阈值[ρ1],增加置信度阈值[ρ2],[ρ2]表示类别中包含某一频繁模式的句子占包含该模式所有句子数的比例。
[ρ1=QpatternSum(QDB)] (1)
[ρ2=Sum( PmaxSumClass)Sum(α)] (2)
修改后的PrefixSpan算法(FE-PrefixSpan)如表1中FE-PrefixSpan算法所示。[α]代表由一个以上单词组成的单词序列,在修改后的算法中进行序列模式挖掘的最小数据单位为单词,如果[α]在句子中出现的频率大于支持度阈值[ρ1]且置信度大于[ρ2],则[α]会被当做频繁序列模式[5]做为问题分类的特征。[ρ1]通过公式(1)计算,[SumQDB]代表问题的总数目,[Qpattern]包含模式[α]的句子总数。公式(2)计算[ρ2],[PmaxSumClass]代表含有模式[α]数目最多的类中的含有模式[α]的句子,[Sumα]是所有包含[α]模式的句子总数。
方法:
1. 扫描[QS|α],找到满足最小支持度[ρ1]的频繁项[b],[b]能够连接到序列模式[α]最后一个元素或者[]附加到序列模式[α]后面构成一个序列模式。
2. 对每个频繁项[b],连接到序列模式[α]后面构成序列模式[α’],如果[α’]满足置信度[ρ2]的阈值则输出[α’],否则进行步骤3.
3. 对每个[α’],构造[α’]的投影数据库[QS|α’],再调用[FE-PrefixSpan(α’, l 1, QS|α’ )]函数。 ]
2.2基于单词相似度改进的信息增益特征提取方法
根据信息增益[6]选取问句中的类别特征,其主要是通过计算组成问句单词的权值,以挖掘词汇与类别之间的隐藏关联程度[7],结合单词语义相似度[8-10]对IG方法进行改进,结合单词语义改进后的信息增益特征抽取过程用表2中的算法描述。
为了区别原有IG公式,将改进后的IG公式以公式(3)表示如下:
[IGw=-i=1nPcilog2Pci]
[ Pwi=1nPci|wlog2Pci|w]
[ Pwi=1nPci|wlog2Pci|w] (3)
根据公式可得[w]的信息增益取决于[count(w)]和[count(c,w)]的值。对于给定的句子[s],如果单词[w]在句子[s]中出现,则[countw]的值加1,否则值不变([count(w)]初始值为0)。如果单词[w]在句子[s]中出现且句子[s]属于[c]类,则[count(c,w)]的值加1,否则值不变([count(c,w)]初始值为0)。但是,以上所述关于[count(w)]的计算方法并不准确。基于语义相似度改进的关于[count(w)]和[count(c,w)]的计算方法(SIM-IG-Count)如表3所示。
3 结论
本文主要提出并评价了一种用于问句分类的混合特征抽取方法。为了减少特征抽取的计算开销,本文考虑了词法特征和简单语义特征。将词语间的相似度引入信息增益公式中,利用公式得到问句的语义特征。该算法通过计算组成问句的所有单词的权值来评估单词的重要性,根据单词的重要程度选取高价值词汇组成表示问句的特征向量,用于问句分类。此外,本文还提出一种使用序列模式挖掘算法来获取词法特征。通过该方法抽取的词法特征结合单词语义特征用于问句分类,在多种分类器中进行分类实验。所提方法在UIUC数据集上进行了评价,与已有方法相比,该方法大类准确率达到96%,小类准确率达到90.4%,优于现今存在的分类方法。
参考文献:
[1] Ioannakis G, Koutsoudis A, Pratikakis I et al. RETRIEVAL-An Online Performance Evaluation Tool for Information Retrieval Methods.IEEE Transactions on Multimedia, 2017, 20(1):119-127.
[2] 范士喜,王晓龙,王轩,等.面向真实环境的问句分析方法.电子学报,2010,38(5): 1131-1135.
[3] 高明霞, 刘椿年. 基于约束的自然语言问题到 OWL 的语义映射方法研究. 电子学报, 2007, 35(8): 1598-1602.
[4]公伟, 刘培玉, 贾娴. 基于改进 PrefixSpan 的序列模式挖掘算法[J]. 计算机应用, 2011, 31(9): 2405-2407.
[5] 吴迪. 基于加权相似度的序列聚类算法研究[D]. 秦皇岛: 燕山大学, 2014.
[6]Azhagusundari B, Thanamani A S. Feature selection based on information gain[J]. International Journal of Innovative Technology and Exploring Engineering (IJITEE) ISSN, 2013: 2278-3075.
[7] 张春生, 李艳, 图雅. 基于属性拓展的数据挖掘预处理技术研究[J]. 计算机技术与发展, 2014, 24(3): 79-81.
[8] Pirró G. A semantic similarity metric combining features and intrinsic information content. Data