英语情态动词语义排歧中的知识发现研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:zhhy0822
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:该文以形式观念分析理论为支撑,以属性结构偏序图为工具,探讨英语情态动词语义排歧中的知识发现,提出进行英语情态动词的知识发现分的五个层次和五个视角。五个层次为:语言学准备层,数据采集层,数据预处理层,形式概念分析层和知识发现层;五个视角为:语义模式识别,语义规则提取,特征选择优化,句法与语义互动关系,属性重要度分析。该文提出的情态动词语义排歧中知识发现框架,既可以其他复杂语义词的知识发现,也可以应用到机器翻译和其他自然语言处理领域。
  关键词:模式识别;规则提取;特征选择优化;句法语义互动;属性重要度分析
  中图分类号:TP311 文献标识码:A
  文章编号:1009-3044(2019)12-0181-05
  1前言
  知识发现是指从数据集中提取有效的、新颖的、潜在有用的、可理解的模式的非平凡过程[1]。随着大数据时代的来临,知识发现引起了各领域、各学科的关注,如工业[2]、农业[3]、生物医学[4]、 网络舆情[5]等等。从纷繁的数据中发现知识,已成为是人工智能领域的重要工作之一[6]。作为一种有潜力的获取新颖、有用、可理解知识的方法,知识发现也被应用到语言学和自然语言处理领域 [7],知识发现是挖掘语言背后隐性知识的有效方法。
  语义排歧一直是自然语言处理领域的热点问题,复杂语义词 — 英语情态动词的语义排歧更是棘手问题。近年来,英语情态动词语义排歧領域有很多开拓性的研究,于建平教授等分别研究了基于神经网络、支持向量机、朴素贝叶斯概率、模糊 c 均值聚类、自适应神经网络模糊推理系统以及属性偏序图的英语情态动词的语义排歧[8-13],笔者也从不同视角对英语情态动词语义排歧进行了知识发现研究[14-18]。纵观前期研究成果,研究或止于高精确语义排歧模型的建立,或局限于某个单独视角研究语义排歧中的知识发现,因此,本文在总结前期研究的基础上,提出英语情态动词语义排歧中知识发现的基本框架,为以后情态动词的知识发现研究提供借鉴。
  2理论背景
  形式概念分析主要用于数据分析,发现对象及描述对象的一系列特征之间的内在关系。形式概念分析中,数据被分解成概念的抽象表示单元,并对各单元做出有意义的解释 [19]。形式概念分析能够将隐性、复杂的信息抽象为层级概念,该理论对信息提取、文本聚类和分类、自然语言处理等领域都有重大意义。如下是形式概念分析的基本概念:
  定义 1. U 一个对象集合, U = {u1, u2,…, un },M 是一个属性集合, M = {m1, m2,…, mn }, 而且 I ? U×M 是U和M之间的一个二元关系,( u, m )∈I 表示对象u 具有属性m。那么, K= (U, M, I) 就叫作一个形式背景。.
  定义 2. 如果 m ∈ M, g (m) = {u ∈ G | (u, m) ∈ I} 说明这个对象集合享有属性m。 如果u ∈ G, f (u) = {m ∈ M | (u, m) ∈ I} 说明这个属性集合享有对象u。
  定义 3. m0, m1, m2, …, mk ∈ M。如果 g( mi ) ? g( m0 ),且i =1, 2, 3, …, k, k≥2,则 m0 叫做m1, m2, …, mk.的共有属性。
  定义 4. 设K= (U, M, I) 为一形式背景,对于集合 A ? U, f (A) = {m∈ M | (u, m) ∈ I, " u∈ A}。相应的, 对于一个集合B ? M, 我们定义 g(B)= {u∈ G | (u, m) ∈ I, "m∈ B}。 一个形式概念是一个有序对(A, B), A ? U, B ? M, f (A) =B 而且 u (B) =A. A叫作概念的外延,而 B叫作概念的内涵。
  3情态动词语义排歧中知识发现的基本框架
  基于前人的贡献和笔者自己的研究,本文在总结前期研究成果的基础上,提出了英语情态动词语义排歧中知识发现的基本框架,该框架适用于所有情态动词的知识发现研究。
  4 基本框架描述
  情态动词知识发现基本框架可以分为五层:语言学准备层,数据采集层,数据预处理层,形式概念分析层和知识发现层。前四层的实质为情态动词语义排歧的基本框架,参照[13],这里不再赘述。本文主要阐述框架第五层,即知识发现层。情态动词语义排歧模型生成后,可以从如下五个视角来进行知识发现研究:模式识别研究,规则提取研究,语义与句法互动关系研究,特征选择优化研究和属性重要度分析研究。本文主要基于笔者之前关于英语情态动词的系列研究成果,研究主要围绕情态动词must和shall展开,文章提到的方法也适用于其他情态动词或其他词汇范畴。
  4.1 模式识别
  模式识别是指对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。它是信息科学和人工智能的重要组成部分,主要应用领域是图像分析与处理、语音识别、通信、计算机辅助诊断等学科。作为一种分类的重要手段,它可用于语义排歧领域。
  本节以must语义排歧模型[18]为例,探讨must的语义模式识别。在图中,以对象为起点,逆序向上,形成对象和属性的二元组,每个二元组就是must语义的一种模式,以图中o1为例,逆序向上,得到属性组合a17a13a16a8a3a1a6, 因o1:o117(2), 即o1对应对象o117(2),属于must的第二类意义,故得到must的一种语义模式{2, a17a13a16a8a3a1a6}。以此类推,可以推出模型中所有的语义模式,篇幅关系,这里不一一列举。
  由此,构造出目标词语义排歧模型后,语料库中目标词各语义义项的语义模式显而易见。所有这些模式都可以被视为must语义判定的基础。   4.2 规则提取
  规则提取是数据挖掘中最重要最关键的一步,是解决黑匣子问题的主要方法。在黑匣子中,数据输出过程抽象复杂、很难解释,但却可以用简单明了的方式表述出来,这种转换就是规则提取。近些年,不同学科领域出现了多种多样的规则提取方法,笔者在文献[18] 中提出情态动词语义排歧中的规则提取方法。
  还是以must为例,在must的语义排歧模型(图2)中,提取must语义排歧规则,规则提取流程图如下:
  在属性偏序图中,各属性均做如下运算:(以属性mi为例)1)以mi为起点,逆序向上直至顶点,该过程属性组合形成二元组(g, m)中的m,mi对向下至底层对象集合构成g;2)对二元组集合进行两两运算。运算规则为外延集合取并集,内涵集合取交集。从而形成新的二元组集合。新二元组中成员若与原二元组集合中某成员相等,则删除新成员,即不生成该新成员;3)若新二元组集合中某成员内涵与原二元组集合中某成员内涵相同,则删除原二元组集合中该成员,即保留外延大的二元组;4)若新二元组集合中只有一个元素,则完成该属性运算,保留下来的所有二元组即为可能模式的一部分;否则返回第2步。
  该过程将找到所有可能模式。对比所有可能模式。对内涵部分,若其中几个二元组内涵相等,则生成新二元组,该新二元组内涵不变,外延为几个二元组外延并集,同时删除原二元组;对外延部分,若两二元组外延相同,则内涵部分必然为包含关系,保留内涵最大(属性个数最多)的一个二元组,其余的删除;保留下来的二元组即为形式概念,即规则,提取出的规则见表1。
  由此,4.1中各种复杂的模式就转化成了表中的四條简单明了的规则。
  4.3 特征选择优化
  特征选择,也称为特征子集选择或属性选择,指的是从所有备选特征子集中选择一个最优的特征子集,以提高分类器性能。在机器学习和模式识别领域, 特征数量往往较多,特征个数越多,分析特征、训练模型的时间就越长;特征个数越多,维度也就越多,模型也会越复杂,其应用推广能力会下降。一些解决特征数量过多问题的技术应运而生,旨在减少不相关特征和冗余特征,减轻分类器的负担,即特征选择。特征选择使研究人员易于理解数据,能够减少计算时间,避免维度灾难,提高分类器性能 [20]。
  关于英语情态动词的特征选择,继续以must为例。在对其进行规则提取的基础上,可以进一步做特征选择优化研究。表2中提取出的规则只包含must的6个属性:a3, a4, a5, a6, a7和 a8,接下来我们要验证是否可以用这6个特征来生成语义排歧模型进行语义排歧,并且达到原有17个特征时相同的效果。删除了规则以外的11个特征,保留了规则包含的6个特征,建立形式背景,将此形式背景净化,转换成属性结构偏序图,生成新的语义排歧模型,如图4所示,同前,此图亦可作为must的语义分类和判定模型。
  为了检验优化后模型的有效性,需先将检验组的初始形式背景做相同的优化处理:删除多余特征,保留规则中出现的6个特征,然后按照初始模型的检验方法对新模型进行检验,得到模型准确率为97.5%,高于初始模型的准确率94.5%。
  初始模型(图2)和优化模型(图4)对比可知:优化模型只选择了6个特征,与初始模型中的17个特征相比降低了将近200%,然而准确率却提高了3%。由此得出结论:特征子集a3, a4, a5, a6, a7和 a8是must语义排歧中的优化特征集,其他特征为冗余特征,它们对must的语义排歧有贡献,但如果优化特征子集存在,这些特征的存在就没有意义。
  4.4 语义与句法互动
  语言不仅是符号系统,也是价值系统。语言中各要素不是独立存在的,而是交织在一个隐形的网里。句法和语义在这个网中相互影响:句法差异会映射到语义中,语义差异也会反映在句法上[21]。句法和语义相互依赖,又相互补充。语义、句法的相关研究应该将二者结合在一起,探究二者之间的互动关系[22]。
  笔者在文献[16]中,仅以must的句法特征为属性,研究must的句法和不同语义间的互动关系。首先构建语义排歧模型,按照4.2中提到的方法对must进行语义规则提取运算,得到如下规则:
  { 1,a1} { 1,a2a9} { 2,a5} { 2,a6} { 2,a7a8}
  这些规则可以揭示must不同语义和句法特征之间的互动关系,可以看出:在与must共现的9个句法特征中,只有规则中出现的某些特征或者特征组合对must的意义选择具有决定性。
  1){ 1,a1}
  这条规则表示:所有具有属性a1(否定)的对象中must均为根意义。情态意义must不与否定共现,英语中must否定情态意义的缺失由can’t(= it is not possible that ×)来弥补。在否定上,must是一个特例:它不具备情态意义的否定形式,只有根意义must具备否定形式,其否定形式否定的是述谓结构,含根意义must的否定句可以解释为:I order you not to × 或者it is necessary for (you) not to ×。
  2){ 1,a2a9}
  这条规则表示:所有同时具有属性a2(被动)和a9 (无生命主语)的对象中must均为根意义。在被动语态中,动作的对象(通常无生命)为句子的语法主语,动作的发出者不做具体说明。然而,说话者的目的是试图影响某个隐匿的对象产生行动,所以,所有同时与被动和无生命主语共现的对象中must均为根意义。具备这两个句法特征的句子表达较弱的义务性,可以理解为:it is important that ×。
  3){ 2,a5} { 2,a6} { 2,a7a8}
  规则{ 2,a5}:所有具有属性a5 (完成时) 的对象中must均为情态意义。Must本身没有过去时,但是情态意义的must却可以通过使用have ed结构来表达过去的状态或活动。具有完成时的must样本可以理解为: I’m sure/I infer that × was ×。情态意义must也通过与a6 (进行时) 或 a8 (静态动词)共现来表达当前的状态或活动。提取出的{ 2,a6} { 2,a7a8}表示:所有具有属性a6 (进行时)或a8 (静态动词,尤其在静态动词与存在主语同时出现时)的对象中must均为情态意义,可以理解为:I’m sure/I infer that × is × or I’m sure/I infer there is ×。   4.5属性重要度分析
  数据处理中,评价属性的重要度是数据分析的一个重要步骤。作为分类和决策的重要理论支持,属性重要度亦可被应用到语义排歧领域。
  4.1 ~ 4.4的分析一直以must为例,取must语义的二分法,即根意义和情态意义。英语情态动词的多义性往往更复杂,比如shall, 本小节属性重要度分析以shall为例,阐述情态动词语义排歧中的属性重要度分析。根据框架图完成shall的语义排歧模型,参见文献[15],運用五倍交叉验证,模型准确率为95.5%±2.27%。模型有效,在此进行属性重要度分析。
  属性重要度分析的一个重要参数是分类精度,分类精度指信息系统分类过程中,用属性子集P分类出的正确对象与总对象的比值,分类精度是评价特征子集P的属性重要度的关键指数[23]。本文用从形式背景中删除某属性的方法来计算该属性的分类精度,删除后,对象和其他属性形成新的形式背景,并生成新的属性偏序图,然后检测该图中的分类错误。错误越多,说明模型的分类效果越差,也就表明被删除属性的分类精度越高,即:该算法中的错误率与分类精度、属性重要度正相关,错误率越高,被删除属性的分类精度越高,该属性越重要。结果如表2所示。其中,a1 和a2均表示MI(s INTshall),实验中将其归为一组,其他组互信息值同理。
  表2中的最后一列和图3均可显示实验中删除某个特征后的总错误率,可视为shall语义排歧中反映属性重要度的参数。如图所示,无生命主语(a18)错误率最高,即在shall语义排歧中,无生命主语特征在属性重要度中位居第一,是shall当前形势背景中最重要的属性;位居无生命主语特征之后的是疑问句(a21)、MI (INTshall, v) (a9a10), MI (PREshall, v) (a15a16) 以及 MI (s, PREshall) (a7a8),这些特征为相对重要属性;其它特征为不相关属性(仅限于个体,不限于整体)。
  5 总结
  该文以形式观念分析理论为支撑,以属性结构偏序图为工具,探讨英语情态动词语义排歧中的知识发现,提出进行英语情态动词的知识发现分的五个层次和五个视角。五个层次为:语言学准备层,数据采集层,数据预处理层,形式概念分析层和知识发现层;五个视角为:语义模式识别,语义规则提取,特征选择优化,句法与语义互动关系,属性重要度分析。该文提出的情态动词语义排歧中知识发现框架,既可以其他复杂语义词的知识发现,也可以应用到机器翻译和其他自然语言处理领域。
  参考文献:
  [1] Fayyad U,Piatetsky-shapiro G,Smyth P. The KDD process for extracting useful knowledge from volumes of data[J].Comunications of the ACM,1996,39(11):27-34.
  [2] Mishra N,Ling C,Chang H T. A cognitive adopted framework for IoT big-data management and knowledge discovery prospective[J]. International Journal of Distributed Sensor Networks,2015:6.
  [3] 赵瑞雪,鲜国建,寇远涛,等. 大数据环境下的农业知识发现服务探索[J]. 数字图书馆论坛,2016(9):28-33.
  [4] Holzinger A,Zupan M. Knodwat. KNODWAT:a scientificframework application for testing knowledge discovery methods for the biomedical domain[J]. BMC Bioinformatics,2013,14(1):191.
  [5] Zhang C,He L,Mao Y,et al. Knowledge discovery ofnetwork public opinion in the concept of smart city[C]//Industrial Electronics and Applications(ICIEA),2015 IEEE 10th Conference on. IEEE,2015:1197-1202.
  [6] 邹纯龙,马海群. 基于神经网络的政府开放数据网站评价研究———以美国 20 个政府开放数据网站为例[J]. 现代情报,2016,36(9):16 -21.
  [7] 于建平,魏雪姣,耿延宏等,基于偏序结构理论的情态与时、体、态互动关系知识发现研究[J].燕山大学学报,2016,40(06):508-516.
  [8] Yu Jianping,Huang Liang,Fu Jilin,et al. A comparative study of word sense disambiguation of English modal verb by BP neural network and support vector machine [J]. International Journal of Innovative Computing, Information and Control, 2011, 7 (5 ) :2345-2355.
  [9] Yu Jianping,Fu Jilin,Duan Jianli.Syntactic feature based word sense disambiguation of English modal verbs by Na ve Bayesian model [J]. ICIC Express Letter,2010,4 (5B) : 1817-22.   [10] Yu Jianping,Huang Liang,Mei Deming,et al. Determination of the senses of English modal verb will by fuzzy c-means cluster[J]. ICIC Express Letters, Part B: Applications,2011,2 ( 1) :177-182.
  [11] Yu Jianping,Zhao Sha,Mei Deming,et al.Sense inference of English modal verb must by adaptive network-based fuzzy inference system [J]. ICIC Express Letter,2011,5(8A) : 2409-2414.
  [12] Yu Jianping,Hong Wenxue,Li Shaoxiong,et al.A new approach of word sense disambiguation and knowledge discovery of English modal verbs by formal concept analysis[J]. International Journal Innovative Computing,Information and Control,2013,9 (3) :1189-1200.
  [13] Yu Jianping, Li Hongbo, Hong Wenxue. A framework for word sense disambiguation of English modal verbs by formal concept analyasis[J]. ICIC Express Letter, 2017, 11(2).
  [14] Li Hongbo,Yu Jianping, Hong Wenxue . Rule extraction for word sense disambiguation of English modal verb must[J]. ICIC Express Letters, 2013, 7( 3A): 877-882,.
  [15] Li Hong-bo, Yu Jian-ping. Pattern Recognition of Contextual Features for English Modal Verb shall in Word SenseDisambiguation,International Conference On Information Technology And Management Engineering (ITME 2014), 2014: 512-516 .
  [16] Li Hongbo,Yu Jianping. Knowledge representation and discovery for the interaction between syntax and semantics: A case study of must, PIC 2014 - Proceedings of 2014 IEEE International Conference on Progress in Informatics and Computing, 2014, 12(2) :153-157.
  [17] Li Hongbo, Yu Jianping. Attribute significance analysis of English modal verb shall in word sense disambiguation[J]. ICIC Express Letters, Part B: Applications, 2015, 6( 5): 1287-1294.
  [18] Li Hongbo, Yu Jianping, Hong Wenxue. A rule-extraction based optimization method for feature selection in word sense disambiguation[J]. ICIC Express Letter, 2016, 10(6): 1325-1333.
  [19] Ganter B, Wille R. Formal Concept Analysis[M]. Berlin: Spring-Verlag, 1999.
  [20] Chandrashekar G, Sahin F. A survey on feature selection method[J]. Computers and Electrical Engineering, 2014, 40( 1): 16-28.
  [21] Saussure F. Course of General Linguistics. Transl. M. Gao. Bei Jing: Commercial Press, 1996: 37-167.
  [22] Zhang S. On the interation of syntax and semantics: from the perspective of metaphor and metonomy[J]. Foreigh Language Research, 2012, 135( 5).
  [23] Pawlak Z. Rough Set – Theoretical Aspects of Reasoning about Data[M]. Kluwer Academic Pub, 1991.
  【通聯编辑:光文玲】
其他文献
在里海能源开发中俄罗斯与土耳其的矛盾日益突出,围绕着里海能源问题俄罗斯与土耳其在经济、政治各方面展开了激烈的竞争。俄土之争将成为影响里海能源开发进程的重要因素,并将
摘要:传统的单站定位需要测向机同时提供天线阵接收信号的方位角和仰角,而仰角由于电离层的影响会产生剧烈变化,严重影响定位精度,给定位带来很多困难。为了降低电离层的影响,研究了单站定位中的方位-多普勒定位方法,并且根据在返回散射试验平台上获取的大量试验数据给出了数据分析结果。试验结果表明,此方法受电离层影响较小,具有较好的定位精度,符合工程应用要求,同时为后续的目标跟踪奠定基础。  关键词:单站定位;
冷战的结束推动了经济全球化进程,对各国和各地区带来了不对称的机遇和挑战,使美欧差距有扩大趋势。作为应对,欧盟加快了欧元的启动。面对全球化和欧元导致的竞争压力,德国社民党
美国的对外贸易逆差是美国当代对外经济关系的一个重要特征,也常常被看作是一个严重的问题(problem).所以,对美国贸易逆差,特别是对美国对华贸易逆差的研究显得十分重要.本文
摘要:传统计算机教室部署维护困难,无法集中管控,能耗高,存在诸多问题。为克服传统机房的弊端,本文分析了现阶段高校新建机房的需求,引入了教学桌面虚拟化技术方案,并详细阐述了桌面虚拟化设备技术参数及具体操作,而且预测它将迅速占领新建机房市场并普及。  关键词:传统机房问题;教学桌面虚拟化;服务器集群;终端;一键更新;集中管控  中图分类号:G642 文献标识码:A  文章编号:1009-3044
如今,剧烈动荡的世界局势与频繁产生的金融危机已向“历史的终结”^〖1〗论者进出了盾疑与挑战,历史没有终结也不会终结。经济全球经的今天,不受管制和束缚的资本正“旧病复发”,日
摘要:随着科学技术的发展,地震监测工作自人工模拟时代跨越到数字化信息时代,工作中越来越离不开数字化地震设备及互联网的应用。野外无人站点的地震专业设备要正常工作,就需要稳定的电源支持,运行过程中突然断电,既会造成仪器断记,严重影响了仪器的运行率及数据的连续率,并对预报分析工作造成很大的影响,甚至导致专业仪器的供电系统的损坏。为了保障各类系统正常稳定的运行,在电力供应系统中使用不间断供电系统,即UPS
世贸组织是各国与国际经济体系联系与合作的重要桥梁.制定规则、组织谈判、解决争端这三项基本任务使世贸组织成为有效的世界贸易运行机制.了解世贸法规,熟知争端解决机制能
印度的信息产业具有世界领先的地位,不但起步早,且发展也很快,这与拉吉夫·甘地个人的作用是分不开的.他在80年代就任印度总理期间,审时度势地提出了"科技兴国"的口号,与