论文部分内容阅读
摘要:该文以形式观念分析理论为支撑,以属性结构偏序图为工具,探讨英语情态动词语义排歧中的知识发现,提出进行英语情态动词的知识发现分的五个层次和五个视角。五个层次为:语言学准备层,数据采集层,数据预处理层,形式概念分析层和知识发现层;五个视角为:语义模式识别,语义规则提取,特征选择优化,句法与语义互动关系,属性重要度分析。该文提出的情态动词语义排歧中知识发现框架,既可以其他复杂语义词的知识发现,也可以应用到机器翻译和其他自然语言处理领域。
关键词:模式识别;规则提取;特征选择优化;句法语义互动;属性重要度分析
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)12-0181-05
1前言
知识发现是指从数据集中提取有效的、新颖的、潜在有用的、可理解的模式的非平凡过程[1]。随着大数据时代的来临,知识发现引起了各领域、各学科的关注,如工业[2]、农业[3]、生物医学[4]、 网络舆情[5]等等。从纷繁的数据中发现知识,已成为是人工智能领域的重要工作之一[6]。作为一种有潜力的获取新颖、有用、可理解知识的方法,知识发现也被应用到语言学和自然语言处理领域 [7],知识发现是挖掘语言背后隐性知识的有效方法。
语义排歧一直是自然语言处理领域的热点问题,复杂语义词 — 英语情态动词的语义排歧更是棘手问题。近年来,英语情态动词语义排歧領域有很多开拓性的研究,于建平教授等分别研究了基于神经网络、支持向量机、朴素贝叶斯概率、模糊 c 均值聚类、自适应神经网络模糊推理系统以及属性偏序图的英语情态动词的语义排歧[8-13],笔者也从不同视角对英语情态动词语义排歧进行了知识发现研究[14-18]。纵观前期研究成果,研究或止于高精确语义排歧模型的建立,或局限于某个单独视角研究语义排歧中的知识发现,因此,本文在总结前期研究的基础上,提出英语情态动词语义排歧中知识发现的基本框架,为以后情态动词的知识发现研究提供借鉴。
2理论背景
形式概念分析主要用于数据分析,发现对象及描述对象的一系列特征之间的内在关系。形式概念分析中,数据被分解成概念的抽象表示单元,并对各单元做出有意义的解释 [19]。形式概念分析能够将隐性、复杂的信息抽象为层级概念,该理论对信息提取、文本聚类和分类、自然语言处理等领域都有重大意义。如下是形式概念分析的基本概念:
定义 1. U 一个对象集合, U = {u1, u2,…, un },M 是一个属性集合, M = {m1, m2,…, mn }, 而且 I ? U×M 是U和M之间的一个二元关系,( u, m )∈I 表示对象u 具有属性m。那么, K= (U, M, I) 就叫作一个形式背景。.
定义 2. 如果 m ∈ M, g (m) = {u ∈ G | (u, m) ∈ I} 说明这个对象集合享有属性m。 如果u ∈ G, f (u) = {m ∈ M | (u, m) ∈ I} 说明这个属性集合享有对象u。
定义 3. m0, m1, m2, …, mk ∈ M。如果 g( mi ) ? g( m0 ),且i =1, 2, 3, …, k, k≥2,则 m0 叫做m1, m2, …, mk.的共有属性。
定义 4. 设K= (U, M, I) 为一形式背景,对于集合 A ? U, f (A) = {m∈ M | (u, m) ∈ I, " u∈ A}。相应的, 对于一个集合B ? M, 我们定义 g(B)= {u∈ G | (u, m) ∈ I, "m∈ B}。 一个形式概念是一个有序对(A, B), A ? U, B ? M, f (A) =B 而且 u (B) =A. A叫作概念的外延,而 B叫作概念的内涵。
3情态动词语义排歧中知识发现的基本框架
基于前人的贡献和笔者自己的研究,本文在总结前期研究成果的基础上,提出了英语情态动词语义排歧中知识发现的基本框架,该框架适用于所有情态动词的知识发现研究。
4 基本框架描述
情态动词知识发现基本框架可以分为五层:语言学准备层,数据采集层,数据预处理层,形式概念分析层和知识发现层。前四层的实质为情态动词语义排歧的基本框架,参照[13],这里不再赘述。本文主要阐述框架第五层,即知识发现层。情态动词语义排歧模型生成后,可以从如下五个视角来进行知识发现研究:模式识别研究,规则提取研究,语义与句法互动关系研究,特征选择优化研究和属性重要度分析研究。本文主要基于笔者之前关于英语情态动词的系列研究成果,研究主要围绕情态动词must和shall展开,文章提到的方法也适用于其他情态动词或其他词汇范畴。
4.1 模式识别
模式识别是指对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。它是信息科学和人工智能的重要组成部分,主要应用领域是图像分析与处理、语音识别、通信、计算机辅助诊断等学科。作为一种分类的重要手段,它可用于语义排歧领域。
本节以must语义排歧模型[18]为例,探讨must的语义模式识别。在图中,以对象为起点,逆序向上,形成对象和属性的二元组,每个二元组就是must语义的一种模式,以图中o1为例,逆序向上,得到属性组合a17a13a16a8a3a1a6, 因o1:o117(2), 即o1对应对象o117(2),属于must的第二类意义,故得到must的一种语义模式{2, a17a13a16a8a3a1a6}。以此类推,可以推出模型中所有的语义模式,篇幅关系,这里不一一列举。
由此,构造出目标词语义排歧模型后,语料库中目标词各语义义项的语义模式显而易见。所有这些模式都可以被视为must语义判定的基础。 4.2 规则提取
规则提取是数据挖掘中最重要最关键的一步,是解决黑匣子问题的主要方法。在黑匣子中,数据输出过程抽象复杂、很难解释,但却可以用简单明了的方式表述出来,这种转换就是规则提取。近些年,不同学科领域出现了多种多样的规则提取方法,笔者在文献[18] 中提出情态动词语义排歧中的规则提取方法。
还是以must为例,在must的语义排歧模型(图2)中,提取must语义排歧规则,规则提取流程图如下:
在属性偏序图中,各属性均做如下运算:(以属性mi为例)1)以mi为起点,逆序向上直至顶点,该过程属性组合形成二元组(g, m)中的m,mi对向下至底层对象集合构成g;2)对二元组集合进行两两运算。运算规则为外延集合取并集,内涵集合取交集。从而形成新的二元组集合。新二元组中成员若与原二元组集合中某成员相等,则删除新成员,即不生成该新成员;3)若新二元组集合中某成员内涵与原二元组集合中某成员内涵相同,则删除原二元组集合中该成员,即保留外延大的二元组;4)若新二元组集合中只有一个元素,则完成该属性运算,保留下来的所有二元组即为可能模式的一部分;否则返回第2步。
该过程将找到所有可能模式。对比所有可能模式。对内涵部分,若其中几个二元组内涵相等,则生成新二元组,该新二元组内涵不变,外延为几个二元组外延并集,同时删除原二元组;对外延部分,若两二元组外延相同,则内涵部分必然为包含关系,保留内涵最大(属性个数最多)的一个二元组,其余的删除;保留下来的二元组即为形式概念,即规则,提取出的规则见表1。
由此,4.1中各种复杂的模式就转化成了表中的四條简单明了的规则。
4.3 特征选择优化
特征选择,也称为特征子集选择或属性选择,指的是从所有备选特征子集中选择一个最优的特征子集,以提高分类器性能。在机器学习和模式识别领域, 特征数量往往较多,特征个数越多,分析特征、训练模型的时间就越长;特征个数越多,维度也就越多,模型也会越复杂,其应用推广能力会下降。一些解决特征数量过多问题的技术应运而生,旨在减少不相关特征和冗余特征,减轻分类器的负担,即特征选择。特征选择使研究人员易于理解数据,能够减少计算时间,避免维度灾难,提高分类器性能 [20]。
关于英语情态动词的特征选择,继续以must为例。在对其进行规则提取的基础上,可以进一步做特征选择优化研究。表2中提取出的规则只包含must的6个属性:a3, a4, a5, a6, a7和 a8,接下来我们要验证是否可以用这6个特征来生成语义排歧模型进行语义排歧,并且达到原有17个特征时相同的效果。删除了规则以外的11个特征,保留了规则包含的6个特征,建立形式背景,将此形式背景净化,转换成属性结构偏序图,生成新的语义排歧模型,如图4所示,同前,此图亦可作为must的语义分类和判定模型。
为了检验优化后模型的有效性,需先将检验组的初始形式背景做相同的优化处理:删除多余特征,保留规则中出现的6个特征,然后按照初始模型的检验方法对新模型进行检验,得到模型准确率为97.5%,高于初始模型的准确率94.5%。
初始模型(图2)和优化模型(图4)对比可知:优化模型只选择了6个特征,与初始模型中的17个特征相比降低了将近200%,然而准确率却提高了3%。由此得出结论:特征子集a3, a4, a5, a6, a7和 a8是must语义排歧中的优化特征集,其他特征为冗余特征,它们对must的语义排歧有贡献,但如果优化特征子集存在,这些特征的存在就没有意义。
4.4 语义与句法互动
语言不仅是符号系统,也是价值系统。语言中各要素不是独立存在的,而是交织在一个隐形的网里。句法和语义在这个网中相互影响:句法差异会映射到语义中,语义差异也会反映在句法上[21]。句法和语义相互依赖,又相互补充。语义、句法的相关研究应该将二者结合在一起,探究二者之间的互动关系[22]。
笔者在文献[16]中,仅以must的句法特征为属性,研究must的句法和不同语义间的互动关系。首先构建语义排歧模型,按照4.2中提到的方法对must进行语义规则提取运算,得到如下规则:
{ 1,a1} { 1,a2a9} { 2,a5} { 2,a6} { 2,a7a8}
这些规则可以揭示must不同语义和句法特征之间的互动关系,可以看出:在与must共现的9个句法特征中,只有规则中出现的某些特征或者特征组合对must的意义选择具有决定性。
1){ 1,a1}
这条规则表示:所有具有属性a1(否定)的对象中must均为根意义。情态意义must不与否定共现,英语中must否定情态意义的缺失由can’t(= it is not possible that ×)来弥补。在否定上,must是一个特例:它不具备情态意义的否定形式,只有根意义must具备否定形式,其否定形式否定的是述谓结构,含根意义must的否定句可以解释为:I order you not to × 或者it is necessary for (you) not to ×。
2){ 1,a2a9}
这条规则表示:所有同时具有属性a2(被动)和a9 (无生命主语)的对象中must均为根意义。在被动语态中,动作的对象(通常无生命)为句子的语法主语,动作的发出者不做具体说明。然而,说话者的目的是试图影响某个隐匿的对象产生行动,所以,所有同时与被动和无生命主语共现的对象中must均为根意义。具备这两个句法特征的句子表达较弱的义务性,可以理解为:it is important that ×。
3){ 2,a5} { 2,a6} { 2,a7a8}
规则{ 2,a5}:所有具有属性a5 (完成时) 的对象中must均为情态意义。Must本身没有过去时,但是情态意义的must却可以通过使用have ed结构来表达过去的状态或活动。具有完成时的must样本可以理解为: I’m sure/I infer that × was ×。情态意义must也通过与a6 (进行时) 或 a8 (静态动词)共现来表达当前的状态或活动。提取出的{ 2,a6} { 2,a7a8}表示:所有具有属性a6 (进行时)或a8 (静态动词,尤其在静态动词与存在主语同时出现时)的对象中must均为情态意义,可以理解为:I’m sure/I infer that × is × or I’m sure/I infer there is ×。 4.5属性重要度分析
数据处理中,评价属性的重要度是数据分析的一个重要步骤。作为分类和决策的重要理论支持,属性重要度亦可被应用到语义排歧领域。
4.1 ~ 4.4的分析一直以must为例,取must语义的二分法,即根意义和情态意义。英语情态动词的多义性往往更复杂,比如shall, 本小节属性重要度分析以shall为例,阐述情态动词语义排歧中的属性重要度分析。根据框架图完成shall的语义排歧模型,参见文献[15],運用五倍交叉验证,模型准确率为95.5%±2.27%。模型有效,在此进行属性重要度分析。
属性重要度分析的一个重要参数是分类精度,分类精度指信息系统分类过程中,用属性子集P分类出的正确对象与总对象的比值,分类精度是评价特征子集P的属性重要度的关键指数[23]。本文用从形式背景中删除某属性的方法来计算该属性的分类精度,删除后,对象和其他属性形成新的形式背景,并生成新的属性偏序图,然后检测该图中的分类错误。错误越多,说明模型的分类效果越差,也就表明被删除属性的分类精度越高,即:该算法中的错误率与分类精度、属性重要度正相关,错误率越高,被删除属性的分类精度越高,该属性越重要。结果如表2所示。其中,a1 和a2均表示MI(s INTshall),实验中将其归为一组,其他组互信息值同理。
表2中的最后一列和图3均可显示实验中删除某个特征后的总错误率,可视为shall语义排歧中反映属性重要度的参数。如图所示,无生命主语(a18)错误率最高,即在shall语义排歧中,无生命主语特征在属性重要度中位居第一,是shall当前形势背景中最重要的属性;位居无生命主语特征之后的是疑问句(a21)、MI (INTshall, v) (a9a10), MI (PREshall, v) (a15a16) 以及 MI (s, PREshall) (a7a8),这些特征为相对重要属性;其它特征为不相关属性(仅限于个体,不限于整体)。
5 总结
该文以形式观念分析理论为支撑,以属性结构偏序图为工具,探讨英语情态动词语义排歧中的知识发现,提出进行英语情态动词的知识发现分的五个层次和五个视角。五个层次为:语言学准备层,数据采集层,数据预处理层,形式概念分析层和知识发现层;五个视角为:语义模式识别,语义规则提取,特征选择优化,句法与语义互动关系,属性重要度分析。该文提出的情态动词语义排歧中知识发现框架,既可以其他复杂语义词的知识发现,也可以应用到机器翻译和其他自然语言处理领域。
参考文献:
[1] Fayyad U,Piatetsky-shapiro G,Smyth P. The KDD process for extracting useful knowledge from volumes of data[J].Comunications of the ACM,1996,39(11):27-34.
[2] Mishra N,Ling C,Chang H T. A cognitive adopted framework for IoT big-data management and knowledge discovery prospective[J]. International Journal of Distributed Sensor Networks,2015:6.
[3] 赵瑞雪,鲜国建,寇远涛,等. 大数据环境下的农业知识发现服务探索[J]. 数字图书馆论坛,2016(9):28-33.
[4] Holzinger A,Zupan M. Knodwat. KNODWAT:a scientificframework application for testing knowledge discovery methods for the biomedical domain[J]. BMC Bioinformatics,2013,14(1):191.
[5] Zhang C,He L,Mao Y,et al. Knowledge discovery ofnetwork public opinion in the concept of smart city[C]//Industrial Electronics and Applications(ICIEA),2015 IEEE 10th Conference on. IEEE,2015:1197-1202.
[6] 邹纯龙,马海群. 基于神经网络的政府开放数据网站评价研究———以美国 20 个政府开放数据网站为例[J]. 现代情报,2016,36(9):16 -21.
[7] 于建平,魏雪姣,耿延宏等,基于偏序结构理论的情态与时、体、态互动关系知识发现研究[J].燕山大学学报,2016,40(06):508-516.
[8] Yu Jianping,Huang Liang,Fu Jilin,et al. A comparative study of word sense disambiguation of English modal verb by BP neural network and support vector machine [J]. International Journal of Innovative Computing, Information and Control, 2011, 7 (5 ) :2345-2355.
[9] Yu Jianping,Fu Jilin,Duan Jianli.Syntactic feature based word sense disambiguation of English modal verbs by Na ve Bayesian model [J]. ICIC Express Letter,2010,4 (5B) : 1817-22. [10] Yu Jianping,Huang Liang,Mei Deming,et al. Determination of the senses of English modal verb will by fuzzy c-means cluster[J]. ICIC Express Letters, Part B: Applications,2011,2 ( 1) :177-182.
[11] Yu Jianping,Zhao Sha,Mei Deming,et al.Sense inference of English modal verb must by adaptive network-based fuzzy inference system [J]. ICIC Express Letter,2011,5(8A) : 2409-2414.
[12] Yu Jianping,Hong Wenxue,Li Shaoxiong,et al.A new approach of word sense disambiguation and knowledge discovery of English modal verbs by formal concept analysis[J]. International Journal Innovative Computing,Information and Control,2013,9 (3) :1189-1200.
[13] Yu Jianping, Li Hongbo, Hong Wenxue. A framework for word sense disambiguation of English modal verbs by formal concept analyasis[J]. ICIC Express Letter, 2017, 11(2).
[14] Li Hongbo,Yu Jianping, Hong Wenxue . Rule extraction for word sense disambiguation of English modal verb must[J]. ICIC Express Letters, 2013, 7( 3A): 877-882,.
[15] Li Hong-bo, Yu Jian-ping. Pattern Recognition of Contextual Features for English Modal Verb shall in Word SenseDisambiguation,International Conference On Information Technology And Management Engineering (ITME 2014), 2014: 512-516 .
[16] Li Hongbo,Yu Jianping. Knowledge representation and discovery for the interaction between syntax and semantics: A case study of must, PIC 2014 - Proceedings of 2014 IEEE International Conference on Progress in Informatics and Computing, 2014, 12(2) :153-157.
[17] Li Hongbo, Yu Jianping. Attribute significance analysis of English modal verb shall in word sense disambiguation[J]. ICIC Express Letters, Part B: Applications, 2015, 6( 5): 1287-1294.
[18] Li Hongbo, Yu Jianping, Hong Wenxue. A rule-extraction based optimization method for feature selection in word sense disambiguation[J]. ICIC Express Letter, 2016, 10(6): 1325-1333.
[19] Ganter B, Wille R. Formal Concept Analysis[M]. Berlin: Spring-Verlag, 1999.
[20] Chandrashekar G, Sahin F. A survey on feature selection method[J]. Computers and Electrical Engineering, 2014, 40( 1): 16-28.
[21] Saussure F. Course of General Linguistics. Transl. M. Gao. Bei Jing: Commercial Press, 1996: 37-167.
[22] Zhang S. On the interation of syntax and semantics: from the perspective of metaphor and metonomy[J]. Foreigh Language Research, 2012, 135( 5).
[23] Pawlak Z. Rough Set – Theoretical Aspects of Reasoning about Data[M]. Kluwer Academic Pub, 1991.
【通聯编辑:光文玲】
关键词:模式识别;规则提取;特征选择优化;句法语义互动;属性重要度分析
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)12-0181-05
1前言
知识发现是指从数据集中提取有效的、新颖的、潜在有用的、可理解的模式的非平凡过程[1]。随着大数据时代的来临,知识发现引起了各领域、各学科的关注,如工业[2]、农业[3]、生物医学[4]、 网络舆情[5]等等。从纷繁的数据中发现知识,已成为是人工智能领域的重要工作之一[6]。作为一种有潜力的获取新颖、有用、可理解知识的方法,知识发现也被应用到语言学和自然语言处理领域 [7],知识发现是挖掘语言背后隐性知识的有效方法。
语义排歧一直是自然语言处理领域的热点问题,复杂语义词 — 英语情态动词的语义排歧更是棘手问题。近年来,英语情态动词语义排歧領域有很多开拓性的研究,于建平教授等分别研究了基于神经网络、支持向量机、朴素贝叶斯概率、模糊 c 均值聚类、自适应神经网络模糊推理系统以及属性偏序图的英语情态动词的语义排歧[8-13],笔者也从不同视角对英语情态动词语义排歧进行了知识发现研究[14-18]。纵观前期研究成果,研究或止于高精确语义排歧模型的建立,或局限于某个单独视角研究语义排歧中的知识发现,因此,本文在总结前期研究的基础上,提出英语情态动词语义排歧中知识发现的基本框架,为以后情态动词的知识发现研究提供借鉴。
2理论背景
形式概念分析主要用于数据分析,发现对象及描述对象的一系列特征之间的内在关系。形式概念分析中,数据被分解成概念的抽象表示单元,并对各单元做出有意义的解释 [19]。形式概念分析能够将隐性、复杂的信息抽象为层级概念,该理论对信息提取、文本聚类和分类、自然语言处理等领域都有重大意义。如下是形式概念分析的基本概念:
定义 1. U 一个对象集合, U = {u1, u2,…, un },M 是一个属性集合, M = {m1, m2,…, mn }, 而且 I ? U×M 是U和M之间的一个二元关系,( u, m )∈I 表示对象u 具有属性m。那么, K= (U, M, I) 就叫作一个形式背景。.
定义 2. 如果 m ∈ M, g (m) = {u ∈ G | (u, m) ∈ I} 说明这个对象集合享有属性m。 如果u ∈ G, f (u) = {m ∈ M | (u, m) ∈ I} 说明这个属性集合享有对象u。
定义 3. m0, m1, m2, …, mk ∈ M。如果 g( mi ) ? g( m0 ),且i =1, 2, 3, …, k, k≥2,则 m0 叫做m1, m2, …, mk.的共有属性。
定义 4. 设K= (U, M, I) 为一形式背景,对于集合 A ? U, f (A) = {m∈ M | (u, m) ∈ I, " u∈ A}。相应的, 对于一个集合B ? M, 我们定义 g(B)= {u∈ G | (u, m) ∈ I, "m∈ B}。 一个形式概念是一个有序对(A, B), A ? U, B ? M, f (A) =B 而且 u (B) =A. A叫作概念的外延,而 B叫作概念的内涵。
3情态动词语义排歧中知识发现的基本框架
基于前人的贡献和笔者自己的研究,本文在总结前期研究成果的基础上,提出了英语情态动词语义排歧中知识发现的基本框架,该框架适用于所有情态动词的知识发现研究。
4 基本框架描述
情态动词知识发现基本框架可以分为五层:语言学准备层,数据采集层,数据预处理层,形式概念分析层和知识发现层。前四层的实质为情态动词语义排歧的基本框架,参照[13],这里不再赘述。本文主要阐述框架第五层,即知识发现层。情态动词语义排歧模型生成后,可以从如下五个视角来进行知识发现研究:模式识别研究,规则提取研究,语义与句法互动关系研究,特征选择优化研究和属性重要度分析研究。本文主要基于笔者之前关于英语情态动词的系列研究成果,研究主要围绕情态动词must和shall展开,文章提到的方法也适用于其他情态动词或其他词汇范畴。
4.1 模式识别
模式识别是指对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。它是信息科学和人工智能的重要组成部分,主要应用领域是图像分析与处理、语音识别、通信、计算机辅助诊断等学科。作为一种分类的重要手段,它可用于语义排歧领域。
本节以must语义排歧模型[18]为例,探讨must的语义模式识别。在图中,以对象为起点,逆序向上,形成对象和属性的二元组,每个二元组就是must语义的一种模式,以图中o1为例,逆序向上,得到属性组合a17a13a16a8a3a1a6, 因o1:o117(2), 即o1对应对象o117(2),属于must的第二类意义,故得到must的一种语义模式{2, a17a13a16a8a3a1a6}。以此类推,可以推出模型中所有的语义模式,篇幅关系,这里不一一列举。
由此,构造出目标词语义排歧模型后,语料库中目标词各语义义项的语义模式显而易见。所有这些模式都可以被视为must语义判定的基础。 4.2 规则提取
规则提取是数据挖掘中最重要最关键的一步,是解决黑匣子问题的主要方法。在黑匣子中,数据输出过程抽象复杂、很难解释,但却可以用简单明了的方式表述出来,这种转换就是规则提取。近些年,不同学科领域出现了多种多样的规则提取方法,笔者在文献[18] 中提出情态动词语义排歧中的规则提取方法。
还是以must为例,在must的语义排歧模型(图2)中,提取must语义排歧规则,规则提取流程图如下:
在属性偏序图中,各属性均做如下运算:(以属性mi为例)1)以mi为起点,逆序向上直至顶点,该过程属性组合形成二元组(g, m)中的m,mi对向下至底层对象集合构成g;2)对二元组集合进行两两运算。运算规则为外延集合取并集,内涵集合取交集。从而形成新的二元组集合。新二元组中成员若与原二元组集合中某成员相等,则删除新成员,即不生成该新成员;3)若新二元组集合中某成员内涵与原二元组集合中某成员内涵相同,则删除原二元组集合中该成员,即保留外延大的二元组;4)若新二元组集合中只有一个元素,则完成该属性运算,保留下来的所有二元组即为可能模式的一部分;否则返回第2步。
该过程将找到所有可能模式。对比所有可能模式。对内涵部分,若其中几个二元组内涵相等,则生成新二元组,该新二元组内涵不变,外延为几个二元组外延并集,同时删除原二元组;对外延部分,若两二元组外延相同,则内涵部分必然为包含关系,保留内涵最大(属性个数最多)的一个二元组,其余的删除;保留下来的二元组即为形式概念,即规则,提取出的规则见表1。
由此,4.1中各种复杂的模式就转化成了表中的四條简单明了的规则。
4.3 特征选择优化
特征选择,也称为特征子集选择或属性选择,指的是从所有备选特征子集中选择一个最优的特征子集,以提高分类器性能。在机器学习和模式识别领域, 特征数量往往较多,特征个数越多,分析特征、训练模型的时间就越长;特征个数越多,维度也就越多,模型也会越复杂,其应用推广能力会下降。一些解决特征数量过多问题的技术应运而生,旨在减少不相关特征和冗余特征,减轻分类器的负担,即特征选择。特征选择使研究人员易于理解数据,能够减少计算时间,避免维度灾难,提高分类器性能 [20]。
关于英语情态动词的特征选择,继续以must为例。在对其进行规则提取的基础上,可以进一步做特征选择优化研究。表2中提取出的规则只包含must的6个属性:a3, a4, a5, a6, a7和 a8,接下来我们要验证是否可以用这6个特征来生成语义排歧模型进行语义排歧,并且达到原有17个特征时相同的效果。删除了规则以外的11个特征,保留了规则包含的6个特征,建立形式背景,将此形式背景净化,转换成属性结构偏序图,生成新的语义排歧模型,如图4所示,同前,此图亦可作为must的语义分类和判定模型。
为了检验优化后模型的有效性,需先将检验组的初始形式背景做相同的优化处理:删除多余特征,保留规则中出现的6个特征,然后按照初始模型的检验方法对新模型进行检验,得到模型准确率为97.5%,高于初始模型的准确率94.5%。
初始模型(图2)和优化模型(图4)对比可知:优化模型只选择了6个特征,与初始模型中的17个特征相比降低了将近200%,然而准确率却提高了3%。由此得出结论:特征子集a3, a4, a5, a6, a7和 a8是must语义排歧中的优化特征集,其他特征为冗余特征,它们对must的语义排歧有贡献,但如果优化特征子集存在,这些特征的存在就没有意义。
4.4 语义与句法互动
语言不仅是符号系统,也是价值系统。语言中各要素不是独立存在的,而是交织在一个隐形的网里。句法和语义在这个网中相互影响:句法差异会映射到语义中,语义差异也会反映在句法上[21]。句法和语义相互依赖,又相互补充。语义、句法的相关研究应该将二者结合在一起,探究二者之间的互动关系[22]。
笔者在文献[16]中,仅以must的句法特征为属性,研究must的句法和不同语义间的互动关系。首先构建语义排歧模型,按照4.2中提到的方法对must进行语义规则提取运算,得到如下规则:
{ 1,a1} { 1,a2a9} { 2,a5} { 2,a6} { 2,a7a8}
这些规则可以揭示must不同语义和句法特征之间的互动关系,可以看出:在与must共现的9个句法特征中,只有规则中出现的某些特征或者特征组合对must的意义选择具有决定性。
1){ 1,a1}
这条规则表示:所有具有属性a1(否定)的对象中must均为根意义。情态意义must不与否定共现,英语中must否定情态意义的缺失由can’t(= it is not possible that ×)来弥补。在否定上,must是一个特例:它不具备情态意义的否定形式,只有根意义must具备否定形式,其否定形式否定的是述谓结构,含根意义must的否定句可以解释为:I order you not to × 或者it is necessary for (you) not to ×。
2){ 1,a2a9}
这条规则表示:所有同时具有属性a2(被动)和a9 (无生命主语)的对象中must均为根意义。在被动语态中,动作的对象(通常无生命)为句子的语法主语,动作的发出者不做具体说明。然而,说话者的目的是试图影响某个隐匿的对象产生行动,所以,所有同时与被动和无生命主语共现的对象中must均为根意义。具备这两个句法特征的句子表达较弱的义务性,可以理解为:it is important that ×。
3){ 2,a5} { 2,a6} { 2,a7a8}
规则{ 2,a5}:所有具有属性a5 (完成时) 的对象中must均为情态意义。Must本身没有过去时,但是情态意义的must却可以通过使用have ed结构来表达过去的状态或活动。具有完成时的must样本可以理解为: I’m sure/I infer that × was ×。情态意义must也通过与a6 (进行时) 或 a8 (静态动词)共现来表达当前的状态或活动。提取出的{ 2,a6} { 2,a7a8}表示:所有具有属性a6 (进行时)或a8 (静态动词,尤其在静态动词与存在主语同时出现时)的对象中must均为情态意义,可以理解为:I’m sure/I infer that × is × or I’m sure/I infer there is ×。 4.5属性重要度分析
数据处理中,评价属性的重要度是数据分析的一个重要步骤。作为分类和决策的重要理论支持,属性重要度亦可被应用到语义排歧领域。
4.1 ~ 4.4的分析一直以must为例,取must语义的二分法,即根意义和情态意义。英语情态动词的多义性往往更复杂,比如shall, 本小节属性重要度分析以shall为例,阐述情态动词语义排歧中的属性重要度分析。根据框架图完成shall的语义排歧模型,参见文献[15],運用五倍交叉验证,模型准确率为95.5%±2.27%。模型有效,在此进行属性重要度分析。
属性重要度分析的一个重要参数是分类精度,分类精度指信息系统分类过程中,用属性子集P分类出的正确对象与总对象的比值,分类精度是评价特征子集P的属性重要度的关键指数[23]。本文用从形式背景中删除某属性的方法来计算该属性的分类精度,删除后,对象和其他属性形成新的形式背景,并生成新的属性偏序图,然后检测该图中的分类错误。错误越多,说明模型的分类效果越差,也就表明被删除属性的分类精度越高,即:该算法中的错误率与分类精度、属性重要度正相关,错误率越高,被删除属性的分类精度越高,该属性越重要。结果如表2所示。其中,a1 和a2均表示MI(s INTshall),实验中将其归为一组,其他组互信息值同理。
表2中的最后一列和图3均可显示实验中删除某个特征后的总错误率,可视为shall语义排歧中反映属性重要度的参数。如图所示,无生命主语(a18)错误率最高,即在shall语义排歧中,无生命主语特征在属性重要度中位居第一,是shall当前形势背景中最重要的属性;位居无生命主语特征之后的是疑问句(a21)、MI (INTshall, v) (a9a10), MI (PREshall, v) (a15a16) 以及 MI (s, PREshall) (a7a8),这些特征为相对重要属性;其它特征为不相关属性(仅限于个体,不限于整体)。
5 总结
该文以形式观念分析理论为支撑,以属性结构偏序图为工具,探讨英语情态动词语义排歧中的知识发现,提出进行英语情态动词的知识发现分的五个层次和五个视角。五个层次为:语言学准备层,数据采集层,数据预处理层,形式概念分析层和知识发现层;五个视角为:语义模式识别,语义规则提取,特征选择优化,句法与语义互动关系,属性重要度分析。该文提出的情态动词语义排歧中知识发现框架,既可以其他复杂语义词的知识发现,也可以应用到机器翻译和其他自然语言处理领域。
参考文献:
[1] Fayyad U,Piatetsky-shapiro G,Smyth P. The KDD process for extracting useful knowledge from volumes of data[J].Comunications of the ACM,1996,39(11):27-34.
[2] Mishra N,Ling C,Chang H T. A cognitive adopted framework for IoT big-data management and knowledge discovery prospective[J]. International Journal of Distributed Sensor Networks,2015:6.
[3] 赵瑞雪,鲜国建,寇远涛,等. 大数据环境下的农业知识发现服务探索[J]. 数字图书馆论坛,2016(9):28-33.
[4] Holzinger A,Zupan M. Knodwat. KNODWAT:a scientificframework application for testing knowledge discovery methods for the biomedical domain[J]. BMC Bioinformatics,2013,14(1):191.
[5] Zhang C,He L,Mao Y,et al. Knowledge discovery ofnetwork public opinion in the concept of smart city[C]//Industrial Electronics and Applications(ICIEA),2015 IEEE 10th Conference on. IEEE,2015:1197-1202.
[6] 邹纯龙,马海群. 基于神经网络的政府开放数据网站评价研究———以美国 20 个政府开放数据网站为例[J]. 现代情报,2016,36(9):16 -21.
[7] 于建平,魏雪姣,耿延宏等,基于偏序结构理论的情态与时、体、态互动关系知识发现研究[J].燕山大学学报,2016,40(06):508-516.
[8] Yu Jianping,Huang Liang,Fu Jilin,et al. A comparative study of word sense disambiguation of English modal verb by BP neural network and support vector machine [J]. International Journal of Innovative Computing, Information and Control, 2011, 7 (5 ) :2345-2355.
[9] Yu Jianping,Fu Jilin,Duan Jianli.Syntactic feature based word sense disambiguation of English modal verbs by Na ve Bayesian model [J]. ICIC Express Letter,2010,4 (5B) : 1817-22. [10] Yu Jianping,Huang Liang,Mei Deming,et al. Determination of the senses of English modal verb will by fuzzy c-means cluster[J]. ICIC Express Letters, Part B: Applications,2011,2 ( 1) :177-182.
[11] Yu Jianping,Zhao Sha,Mei Deming,et al.Sense inference of English modal verb must by adaptive network-based fuzzy inference system [J]. ICIC Express Letter,2011,5(8A) : 2409-2414.
[12] Yu Jianping,Hong Wenxue,Li Shaoxiong,et al.A new approach of word sense disambiguation and knowledge discovery of English modal verbs by formal concept analysis[J]. International Journal Innovative Computing,Information and Control,2013,9 (3) :1189-1200.
[13] Yu Jianping, Li Hongbo, Hong Wenxue. A framework for word sense disambiguation of English modal verbs by formal concept analyasis[J]. ICIC Express Letter, 2017, 11(2).
[14] Li Hongbo,Yu Jianping, Hong Wenxue . Rule extraction for word sense disambiguation of English modal verb must[J]. ICIC Express Letters, 2013, 7( 3A): 877-882,.
[15] Li Hong-bo, Yu Jian-ping. Pattern Recognition of Contextual Features for English Modal Verb shall in Word SenseDisambiguation,International Conference On Information Technology And Management Engineering (ITME 2014), 2014: 512-516 .
[16] Li Hongbo,Yu Jianping. Knowledge representation and discovery for the interaction between syntax and semantics: A case study of must, PIC 2014 - Proceedings of 2014 IEEE International Conference on Progress in Informatics and Computing, 2014, 12(2) :153-157.
[17] Li Hongbo, Yu Jianping. Attribute significance analysis of English modal verb shall in word sense disambiguation[J]. ICIC Express Letters, Part B: Applications, 2015, 6( 5): 1287-1294.
[18] Li Hongbo, Yu Jianping, Hong Wenxue. A rule-extraction based optimization method for feature selection in word sense disambiguation[J]. ICIC Express Letter, 2016, 10(6): 1325-1333.
[19] Ganter B, Wille R. Formal Concept Analysis[M]. Berlin: Spring-Verlag, 1999.
[20] Chandrashekar G, Sahin F. A survey on feature selection method[J]. Computers and Electrical Engineering, 2014, 40( 1): 16-28.
[21] Saussure F. Course of General Linguistics. Transl. M. Gao. Bei Jing: Commercial Press, 1996: 37-167.
[22] Zhang S. On the interation of syntax and semantics: from the perspective of metaphor and metonomy[J]. Foreigh Language Research, 2012, 135( 5).
[23] Pawlak Z. Rough Set – Theoretical Aspects of Reasoning about Data[M]. Kluwer Academic Pub, 1991.
【通聯编辑:光文玲】