论文部分内容阅读
摘要:运用科学计量学知识图谱的分析方法,以CAJD数据库为基础,对“对外汉语教学”学科结构进行概括和分析。描述了知识图谱分析方法的一般步骤,将这一分析方法引入对外汉语教学研究领域。通过关键词词频分析和共词分析,以可视化的方式,直观地展示出“对外汉语教学”学科的研究概貌和热点。同时以汉字类团为例,具体分析了这一研究领域的微观结构和研究范式。
关键词:对外汉语教学学 科知识图谱 可视化 研究概貌 热点
一、引言
随着汉语热在全球持续升温,汉语国际推广事业蓬勃发展,对外汉语教学研究的深度和广度也在不断拓展。“对外汉语教学”可以有两种理解,一是作为一项事业的“对外汉语教学”,一是作为一门学科的“对外汉语教学”,二者存在密不可分的关系。在实践层面,新中国的对外汉语教学事业始于20世纪50年代初,经过60多年的发展,汉语国际推广事业日益蓬勃发展。在研究层面,对外汉语教学系统的理论建设始于20世纪80年代初。1998年,“对外汉语教学”正式作为一个分支被列入国务院学位委员会颁布的二级学科“语言学及应用语言学”,并首次设立以“对外汉语教学”为主要培养方向的“语言学及应用语言学”博士(硕士)点。这表明,“对外汉语教学”作为一个学科,开始进入一个新的发展阶段。
本文以作为一门学科的“对外汉语教学”为研究对象,借助现代科学计量学的方法,绘制该学科的知识图谱,进而描绘和阐释该学科的学科结构、研究热点以及前沿问题。
需要说明的是,随着该学科研究与实践的发展,很多学者指出“对外汉语教学”这个名称无法囊括如“海外汉语教学”在内的各种教学情况(并非都是“我国教师”对“外国人”教授汉语),建议改称为“汉语作为第二语言教学”。本研究在进行文献检索和信息数据库建设的时候,兼顾了两种名称,即包括在国内和国外实施的各种形式的“汉语作为第二语言教学”的研究。但是为了行文简便起见,以及符合当前多数研究者的习惯,后文统一使用“对外汉语教学”一词,这也和国务院颁布的专业方向一致。
关于对外汉语教学学科结构的研究主要有以下三种形式:①各种版本的“对外汉语教学概论”类的教材或著作(例如:刘殉,2000;赵金铭,2004;周小兵,2012),可以看作是对本学科概貌的梳理。②定性描写学科全貌、某个具体领域或研究热点的综述性文章,作者多为本领域经验丰富的学者。③基于定量分析的综述性文章,多选取特定的杂志(如《世界汉语教学》、《语言教学与研究》等),文章数目一般在1000以内,进行手工统计分析。上述各种形式的研究对于梳理学科的宏观结构或微观结构都有积极的贡献,不足之处在于缺乏大数据支持。面对上万篇海量文献,任何一个研究者都无法对其进行全面考量,迫切需要研究方法的革新。
科学知识图谱(以下简称知识图谱,Mapping Knowledge Domains)是科学计量学的一个新兴领域。它是显示科学知识的发展进程与结构关系的一种图形,用可视化技术描述人类随时间拥有的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系,在组织内创造知识共享的环境以促进科学技术研究的合作和深入。2003年,刘则渊教授将其引入国内,建立了专业的知识图谱研究团队。目前,国内很多学者开始应用知识图谱的研究方法来进行学科结构、前沿和发展脉络的分析研究,相关研究日益丰富。研究对象主要以理工科为主,在人文社会科学中的应用非常少,在对外汉语教学领域尚未应用。基于知识图谱的研究方法以大数据为基础,能够为对外汉语教学研究文献的系统整理分析提供强有力的工具。
二、研究方法
(一)知识图谱分析方法概述
随着时间的推移和研究者的增多,文献总量在不断增长,且增长的速度越来越快,通过传统的方法想捕捉学科发展的脉动已经越来越困难了。因此,科学计量学家们提出运用科学知识图谱来研究科学学科的结构与进展。知识图谱(mapping knowledge domain)在图书情报界也称为知识域可视化(knowledge domainvisualization),是顯示知识发展进程与结构关系的一系列不同的图形。具体来说它是把应用数学、图形学、信息科学等学科的理论和方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的有价值的参考。一个好的学科知识图不但可以提供对知识状态的透视(显示内部结构),还可以帮助我们在科学发现中有所突破①。通过知识图谱的研究,可以了解本领域的学科结构,通过量化的分析,找出研究领域和研究热点,可以比较客观地勾勒学科的概貌,同时可以找出研究的方向。
基于知识图谱的研究领域范围很广,包括作者合作关系分析、单位合作关系分析、关键词词频分析、关键词共词分析、文献互引分析、文献共被引分析、文献耦合关系分析等。本文主要应用的分析方法如下:
1.词频分析法
词频分析法是文献计量学的传统分析方法之一,其所依据的基本理论为齐普夫理论。词频分析方法的词频统计、关键词分析经常被应用于描述某学科领域的研究状况,进而揭示该领域的研究热点和发展轨迹。词频分析方法通常提取文献的关键词为研究对象,因为这些关键词集中反映了一篇文献研究的核心概念,简练并能代表整篇文章的内容。通过对高频关键词的分析,可以发现学科的研究热点。本文拟通过对文献关键词的分析发现对外汉语学科的热点。关键词词频分析主要使用的软件为Bibexcel。
2.共词分析法
共词分析法(Co-word analysis)是信息计量学的一种重要方法,也是内容分析法的常用方法之一。共词分析法的原理是:当两个能够表达某一学科领域研究主题或研究方向的专业术语(例如关键词)在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明它们的关系越密切、距离越近。利用现代统计技术可以进一步按这种距离将一个学科内的重要主题词或关键词加以分类,从而归纳出该学科的研究热点、结构与范式。共词分析可视化是利用可视化开发工具把共词结果以可视化的方式展示出来。本文主要选择关键词共词分析来对CAJD数据库中对外汉语教学方面的文献的文本知识进行挖掘。关键词共词分析主要使用的软件是Bibexcel、Ucinet和netdraw。 (二)本研究的数据来源及数据规范
1.数据来源
本研究以中国学术期刊网络出版总库(China Academi c Journal NetworkPublishing Database,CAJD)为基础文献库,建立“对外汉语教学”研究文献信息数据库。使用CAJD数据库检索关于“对外汉语教学”研究的全部中文文献(23808篇),通过手动剔除非研究性文章后,获得11195篇有效文献。套取这些中英文文献的标题、作者、单位、摘要、关键词、参考文献等基本信息,并进行数据规范化处理,构成“对外汉语教学”研究文献信息数据库,这是本研究下一步绘制知识图谱的基础。本文主要进行关键词分析,综合运用现代科学计量学的方法,勾勒出“对外汉语教学”学科的研究领域、学科结构和热点问题。
2.关键词的规范化
我们用Bibexcel软件做第一轮的词频分析,得到关键词列表。在对关键词进行分析之前,首先要进行关键词的规范化处理。主要包括停词表过滤,关键词的同一性等几个步骤。
(1)停词表过滤
停词表过滤的目的是将那些对文本语义信息共现不大的词语删除掉。本文的停词表包括两部分,第一部分主要是一些语义信息不大的词。如“优势”和“重要性”等等,直接删除。第二部分是出现频次非常高的关键词,但是意义过于笼统,没有实际意义,也不能够分析学科结构,也应该删除掉。如对外汉语教学(2463)、对外汉语(1218)、汉语教学(528)等。
(2)关键词的同一性
有一些关键词表述的研究领域基本相同,应该合并,否则本来应该在知识图谱中表现为一个点的关键词就分为了表述不同的几个点,不仅影响了对热点频次本身的统计,而且也会影响热点之间的关系和学科概貌的表述,不能正确反映学科的概貌。如将“偏误”和“偏误分析”合并为“偏误”,“汉语水平考试”和“HSK”合并为“汉语水平考试(HSK)”。
(3)关键词的拆分
有一些关键词其实反映了几个相关的研究领域,应该拆分。如将“语音偏误”拆分为“语音”和“偏误”,将“初级教材”,拆成“初级”和“教材”。
(三)关键词词频分析和共现图谱的绘制
经过上述处理得到文献关键词数据库,对所得到的关键词数据应用知识图谱软件进行如下分析:(1)用Bibexcel统计关键词频次,得到.cit的频次文件。例如,表1为部分关键词词频数据。(2)用Bibexcel做关键词共现关系分析,获得关键词共现关系矩阵,得到.COC共现关系文件。例如,表2为部分关键词共现关系数据。(3)利用ucinet将关键词频次文件和关键词共现关系文件转化为.##d和.##h文件。(4)用Netdraw进行可视化处理,得到反映关键词词频大小及相互共现关系强弱的图谱。例如,图1为部分高频关键词图谱。
三、对外汉语教学研究热点及概貌分析
(一)关键词词频分析结果
本研究以CAJD为基础文献库,通过Bibexcel软件对11195篇有效文章的关键词进行统计分析,我们可以得到关键词的频率表。选取其中出现频率最高的关键词,就可以大致描绘出近几十年来对外汉语教学的研究热点。
从关键词的词频统计,我们看到40年来对外汉语教学研究领域的热点关键词,这些热点关键词反映出了研究的热点领域。有些关键词联系密切,反映了相关的研究领域。我们在对这些关键词进行分析之后,可以得到如下的热点研究领域。这些热点领域分别是第二语言习得、汉字、教材、词汇、文化、语法、口语、教学法、交际、汉语水平考试以及汉语国际推广等领域。此外这些关键词涉及到分课型教学的听力、阅读和写作,由此可见,对外汉语教学的分课型研究是教学研究的热点。学者们提倡的分水平教学和分国别教学也得到了体现,研究以初级水平和日本学生为最多。
(二)关键词共现分析结果
关键词的共现关系分析反映的是常常一起出现的一些关键词,而有一些出现频率很高的关键词并没有形成频率很高的共现关系。常常一起共现的关键词反映了固定的研究领域和研究范式,同时也反映了这些研究领域的学科结构。关键词共现频次分析,前20名见表2。
根据表2,我们可以看到对外汉语教学一些比较成熟的研究领域。如:偏误、习得、中介语,它们常常一起出现,关系密切,在偏误研究方面,以语音、语用、语法的研究最多,成为热门的研究领域。汉字和形声字也成为一个热门的研究领域。这种分析方法可以让我们了解研究的热点和空白,发现学科中关系密切的关键词,了解研究范式,并厘清概念。
单从共现关系还无法看出学科的结构,借助关键词词频和共现次数,用Ucinet和Netdraw软件可以绘制对外汉语教学学科结构的知识图谱。
从11195篇中文文献中提取每篇文献的关键词,对关键词进行规范化处理,统计分析关键词词频,计算关键词的共现频次(在同一篇文章中同时出现为共现一次),选择高频关键词进行高频词共现矩阵的构建,进而用可视化软件绘制关键词共现图谱,如上图所示(为了使图谱表达清晰,该图选择共现频次大于10的关键词进行呈现)。
图中圈的大小代表了关键词的出现频次,圈越大,表示出现频次越多;连线表现了关键词的共现频次,线越粗,共现频次越大,反映了连线两端的关键词具有更强的相关性。我们会看到连线比较粗的区域集中在图谱的中心。
(三)对外汉语教学研究热点概貌分析
圖1中最大的几个圈就代表了本学科发展的热点问题,围绕这些热点形成了若干研究领域。这些领域包括汉字、偏误、语音、词汇、语用、语法、教材、教师、文化等等。知识图谱呈现的研究领域和前人学者的描述既有一致的方面,同时也有不同的面貌。
很多学者在专著中均对对外汉语教学的学科结构有过相关的论述,如刘殉(2000)、赵金铭(2004)、周小兵(2012)等。朱志平(2000:107-109)提到作为应用语言学分支的对外汉语教学的研究领域,可归纳为8个方面:汉语本体研究、汉字教学研究、第二语言学习与习得研究、汉外语言与文化对比、汉语教学法研究、教学大纲与课程设计及教材编写、语言水平与能力测试、多媒体网络汉语教学。崔永华(2005:64-68)回顾了上世纪80年代初到2005年对外汉语教学的研究热点,主要为构建学科理论框架、国外语言教学流派介绍、文化与文化教学研究、多媒体和网络教学研究、语言习得研究、汉字教学研究、汉语认知研究、研制教学大纲等八个领域。孙德金(2009:48-49)总结了对外汉语教学研究的框架,主要分为以下方面,包括总论、面向对外汉语教学的汉语本体研究,对外汉语教学研究、对外汉语习得研究、汉外对比研究、对外汉语测试研究、对外汉语教材研究、对外汉语教学史研究、对外汉语文化教学研究、现代教育技术与对外汉语教学研究十个领域。对外汉语教学研究包括分阶段教学、分课型教学、分国别教学和语言要素教学。 已有的学科概貌研究均为从逻辑线索出发,根据语音、词汇、语法等语言要素进行概括,或根据听说读写技能进行概括,形成学科框架。本文基于大数据的知识图谱分析,试图描绘对外汉语教学的研究地图。
1.对外汉语教学学科的研究已经形成了若干固定的研究领域
我们结合现代语言学的研究成果,将这些研究领域分为14个主要的类团。每一个类团就是一个内容相关、联系密切的研究领域。这些类团基本反映了30多年来对外汉语教学研究的概貌。
这些类团的概括与已有的研究相比,有一致的方面,如建立的框架基本包括了汉字研究、习得研究、本体研究、文化研究等经典领域。但是也有不一致的方面,如:呈现了不同领域之间的立体关系、习得和偏误、中介语形成了一个联系密切的研究领域。华文教育类团是一个新出现的热点领域。很多学者预言的多媒体教学并没有成为一个热门的研究领域,多媒体出现的频次不算很高(92),而且没有形成共现热点。类团及类团中包含的高频关键词见表3。
2.通过知识图谱可以观察到某一研究领域的发展程度
通过可视化知识图谱,我们可以清晰地观察到类团,了解目前形成的研究领域。而通过知识图谱的微观结构,我们可以看到某一领域发展的精细化程度,是否形成了固定的研究范式,这是衡量某一领域发展成熟的重要标志。如汉字和习得两个类团的共现关系很多,说明这两个类团的研究领域比较丰富,也形成了一些固定的研究范式。而反观教师、教材这些在教育学中已经比较成熟的领域,在对外汉语学科中却并没有体现出研究范式。
对外汉语教学是一门语言学、教育学、心理学的交叉学科,我们从图谱中可以看出,语言学的研究最为充分。作为教学内容的语言应该受到充分的关注。相比之下,教育学与心理学的研究则显得相对薄弱。
有一些研究会考虑到分国别和分阶段如初级(169)、日本学生(92)、汉语水平(92)、但是这些词都没有和其它关键词形成很强的共现关系,说明没有形式研究范式。因此不能作为一个研究领域。
四、类团结构分析——以汉字类团为例
汉字类团是研究比较充分的类团之一,共现关系比较多,研究领域比较稳定,研究范式清晰。汉字是汉语特有的文字,因此在研究中更多借鉴汉语本体的研究方法。下面以汉字类团为例,具体分析一下汉字领域的研究。
(一)汉字研究的发展趋势
汉字是汉语特有的文字,也是汉语独特性的重要表现之一。汉字研究在对外汉语教学研究中是一个重要的研究领域。汉字研究和对外汉语教学的其它领域一样经历了一个从弱到强的发展过程。
共现分析法可以为我们描绘某一关键词随时间变化的发展轨迹。我们把“汉字”作为关键词与文章发表的年份做共现分析,把每一年份和“汉字”这一关键词的共现次数,进行绘图,可以得到每一年以“汉字”作为关键词的文章。即图四。根据图2,我们可以分析“汉字”这一研究领域的发展情况。
根据汉字为关键词的文章数量的变化,我们可以看到汉字教学的研究整体呈现上升的趋势,特别是在1998年有了大幅度的增长,此后直到2007年才超过了这一水平。在前人的文献中我们也可以找到这样的一个过程及原因分析。1997年6月,国家汉办在湖北宜昌召开了首次和教学研讨会。1998年2月,世界汉语教学学会和法国汉语教师协会联合在巴黎举办了国际教学研讨会。此后,汉字和教学研究出现了一个高潮。关心对外汉字教学的刊物多了,研究的深度和广度也大大提高(李大遂,2004)。我们可以看到96、97年之后确实出现了一个明显的高潮。而在2008年之后,漢字领域也呈现了快速发展的趋势,这和对外汉语学科整体的发展趋势是一致的。
(二)汉字类团的微观结构
汉字类团由图1局部放大得到图2。我们可以看到在汉字研究领域比较热点和成熟的研究领域。在这些领域中的关键词与汉字的共现频次见表4。通过这些关键词,我们可以更直观地看到汉字教学研究知识图谱。
为了得到宏观的汉字教学研究概貌,我们的参数设置为关键词和汉字的共现关系大于10的关键词。图可以反映出汉字教学的基本领域,其中汉字与词汇、偏误和教材都是比较经典的研究领域,连线也比较粗,说明共现关系多。同样,汉字和教师以及教学方法之间的共现关系也比较多。但是这些领域都没有形成固定的研究领域。其它的共现关系形成了几个固定的研究领域,如图3所示。
1.汉字教学的定位问题
汉字是汉语的书写符号系统。要学习汉语,特别是要掌握汉语读写能力,必须学习汉字。汉字教学是对外汉语教学的重点和难点之一。对外汉语学者们在进行汉字教学之初,就认识到汉字教学具有自己的特点。关于汉字教学的定位问题也引起了学者们的讨论,在讨论的过程中,逐步确立了汉字教学的地位。对外汉语教学应该采用“字本位”还是采用“词本位”,是一直以来讨论的热点之一。在不断探索汉字特点的过程中,各种类型的汉字教材也不断出现,促进了教学的发展。
汉字作为形音义结合的语言符号系统,体系庞大,形体众多,结构复杂,读音、意义也很复杂。和拼音文字相比,汉字有很大的不同。对于非汉字文化圈的外国人来说,汉字往往是他们学习汉语最大的难点。因此,对于汉字文化圈和非汉字文化圈的学生,也应该采用不同的教学策略。
2.字形结构和形声字研究
汉字本体研究范围很广,但对外汉语教学界的本体研究相对集中,主要集中在字形结构研究和形声字研究两个方面。由于不少现当代文字学家主张文字学主要是字形学,且长期以来,对外汉语教学界对教学任务的理解也主要在教学生掌握形体,故对外汉语教学界的本体研究尤重字形结构研究。字形结构研究又可分为笔画笔顺研究和偏旁部件研究两个方面。形声字研究又主要集中在形旁和声旁研究上。(李大遂:2004)
通过知识图谱的分析,可以看到汉字教学确实形成了字形结构和形声字这样两个成熟的领域。我们判断这是成熟的研究领域是因为在领域中有很多的共现关键词,可见这个领域有固定的内容和层级性的概念。
首先汉字和拼音、字形、书写等关键词的共现,共现关系连线较粗,表示汉字教学一直非常重视字形的书写。字形书写的研究又重在结构和部件。通过知识图谱分析,
我们可以看出独体字是一个出现频率比较高的关键词,但是在以往的综述文献中,没有被指出,这也是知识图谱研究对传统的文献综述有益的补充。同时形声字、声旁也是一个重要的共现词,形成了一个汉字书写的重要研究领域。
3.认知研究
在20世纪以前,有关认知规律的研究并不是主流。但是在20世纪之后,留学生对外学习特点和习得规律日益受到重视。该领域文献主要包括三个方面:(1)从实验和模拟的角度探讨留学生对外学习特点和习得规律;(2)从不同国别探讨了留学生对外学习特点和习得规律;(3)从不同层次分析了留学生对外学习特点和习得规律(徐茗:2010)。这种研究的变化和发展也体现在了知识图谱中。我们可以看到关于字形、书写以及偏误的研究,连线都比较粗一些,可见共现率比较高。而学习策略、认知和识别的联系都比较细,可见共现率没有那么高,是20世纪后一个新兴的领域。通过关键词之间的连线,我们可以直观地观察到热点的研究领域。
五、结语
知识图谱的分析完成了过去不可能完成的任务,以海量数据为基础分析学科的概貌。尽管科学计量学早已成为一个成熟的学科,知识图谱也是一个成熟的方法。我们首次用知识图谱的方式考察对外汉语的研究范围和热点,基本符合预期,同时也验证了一些比较经典的综述性文献。通过关键词频率和共现分析以及绘制知识图谱,研究对外汉语教学研究的概貌和热点,直观清晰,很好地体现了学科概貌。在对具体类团的分析中,如汉字教学,比较清楚地反映了这一子领域的研究概貌,特别是其中比较成熟的研究范式。知识图谱的研究是对已有研究的反映。与基于逻辑分析的学科结构,可以参照,从而发现学科研究的空白领域。
这种研究方法还有更多可以应用的空间,如每一个类团都可以继续进行深入的分析,具体汉字教学、中介语、偏误分析如何随时间而变化,呈现怎样的状态,有利于我们更好地呈现,以及厘清学科概貌。本文仅是试图用知识图谱来分析对外汉语教学的一次尝试,以后还有更多的工作需要我们做。
关键词:对外汉语教学学 科知识图谱 可视化 研究概貌 热点
一、引言
随着汉语热在全球持续升温,汉语国际推广事业蓬勃发展,对外汉语教学研究的深度和广度也在不断拓展。“对外汉语教学”可以有两种理解,一是作为一项事业的“对外汉语教学”,一是作为一门学科的“对外汉语教学”,二者存在密不可分的关系。在实践层面,新中国的对外汉语教学事业始于20世纪50年代初,经过60多年的发展,汉语国际推广事业日益蓬勃发展。在研究层面,对外汉语教学系统的理论建设始于20世纪80年代初。1998年,“对外汉语教学”正式作为一个分支被列入国务院学位委员会颁布的二级学科“语言学及应用语言学”,并首次设立以“对外汉语教学”为主要培养方向的“语言学及应用语言学”博士(硕士)点。这表明,“对外汉语教学”作为一个学科,开始进入一个新的发展阶段。
本文以作为一门学科的“对外汉语教学”为研究对象,借助现代科学计量学的方法,绘制该学科的知识图谱,进而描绘和阐释该学科的学科结构、研究热点以及前沿问题。
需要说明的是,随着该学科研究与实践的发展,很多学者指出“对外汉语教学”这个名称无法囊括如“海外汉语教学”在内的各种教学情况(并非都是“我国教师”对“外国人”教授汉语),建议改称为“汉语作为第二语言教学”。本研究在进行文献检索和信息数据库建设的时候,兼顾了两种名称,即包括在国内和国外实施的各种形式的“汉语作为第二语言教学”的研究。但是为了行文简便起见,以及符合当前多数研究者的习惯,后文统一使用“对外汉语教学”一词,这也和国务院颁布的专业方向一致。
关于对外汉语教学学科结构的研究主要有以下三种形式:①各种版本的“对外汉语教学概论”类的教材或著作(例如:刘殉,2000;赵金铭,2004;周小兵,2012),可以看作是对本学科概貌的梳理。②定性描写学科全貌、某个具体领域或研究热点的综述性文章,作者多为本领域经验丰富的学者。③基于定量分析的综述性文章,多选取特定的杂志(如《世界汉语教学》、《语言教学与研究》等),文章数目一般在1000以内,进行手工统计分析。上述各种形式的研究对于梳理学科的宏观结构或微观结构都有积极的贡献,不足之处在于缺乏大数据支持。面对上万篇海量文献,任何一个研究者都无法对其进行全面考量,迫切需要研究方法的革新。
科学知识图谱(以下简称知识图谱,Mapping Knowledge Domains)是科学计量学的一个新兴领域。它是显示科学知识的发展进程与结构关系的一种图形,用可视化技术描述人类随时间拥有的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系,在组织内创造知识共享的环境以促进科学技术研究的合作和深入。2003年,刘则渊教授将其引入国内,建立了专业的知识图谱研究团队。目前,国内很多学者开始应用知识图谱的研究方法来进行学科结构、前沿和发展脉络的分析研究,相关研究日益丰富。研究对象主要以理工科为主,在人文社会科学中的应用非常少,在对外汉语教学领域尚未应用。基于知识图谱的研究方法以大数据为基础,能够为对外汉语教学研究文献的系统整理分析提供强有力的工具。
二、研究方法
(一)知识图谱分析方法概述
随着时间的推移和研究者的增多,文献总量在不断增长,且增长的速度越来越快,通过传统的方法想捕捉学科发展的脉动已经越来越困难了。因此,科学计量学家们提出运用科学知识图谱来研究科学学科的结构与进展。知识图谱(mapping knowledge domain)在图书情报界也称为知识域可视化(knowledge domainvisualization),是顯示知识发展进程与结构关系的一系列不同的图形。具体来说它是把应用数学、图形学、信息科学等学科的理论和方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的有价值的参考。一个好的学科知识图不但可以提供对知识状态的透视(显示内部结构),还可以帮助我们在科学发现中有所突破①。通过知识图谱的研究,可以了解本领域的学科结构,通过量化的分析,找出研究领域和研究热点,可以比较客观地勾勒学科的概貌,同时可以找出研究的方向。
基于知识图谱的研究领域范围很广,包括作者合作关系分析、单位合作关系分析、关键词词频分析、关键词共词分析、文献互引分析、文献共被引分析、文献耦合关系分析等。本文主要应用的分析方法如下:
1.词频分析法
词频分析法是文献计量学的传统分析方法之一,其所依据的基本理论为齐普夫理论。词频分析方法的词频统计、关键词分析经常被应用于描述某学科领域的研究状况,进而揭示该领域的研究热点和发展轨迹。词频分析方法通常提取文献的关键词为研究对象,因为这些关键词集中反映了一篇文献研究的核心概念,简练并能代表整篇文章的内容。通过对高频关键词的分析,可以发现学科的研究热点。本文拟通过对文献关键词的分析发现对外汉语学科的热点。关键词词频分析主要使用的软件为Bibexcel。
2.共词分析法
共词分析法(Co-word analysis)是信息计量学的一种重要方法,也是内容分析法的常用方法之一。共词分析法的原理是:当两个能够表达某一学科领域研究主题或研究方向的专业术语(例如关键词)在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明它们的关系越密切、距离越近。利用现代统计技术可以进一步按这种距离将一个学科内的重要主题词或关键词加以分类,从而归纳出该学科的研究热点、结构与范式。共词分析可视化是利用可视化开发工具把共词结果以可视化的方式展示出来。本文主要选择关键词共词分析来对CAJD数据库中对外汉语教学方面的文献的文本知识进行挖掘。关键词共词分析主要使用的软件是Bibexcel、Ucinet和netdraw。 (二)本研究的数据来源及数据规范
1.数据来源
本研究以中国学术期刊网络出版总库(China Academi c Journal NetworkPublishing Database,CAJD)为基础文献库,建立“对外汉语教学”研究文献信息数据库。使用CAJD数据库检索关于“对外汉语教学”研究的全部中文文献(23808篇),通过手动剔除非研究性文章后,获得11195篇有效文献。套取这些中英文文献的标题、作者、单位、摘要、关键词、参考文献等基本信息,并进行数据规范化处理,构成“对外汉语教学”研究文献信息数据库,这是本研究下一步绘制知识图谱的基础。本文主要进行关键词分析,综合运用现代科学计量学的方法,勾勒出“对外汉语教学”学科的研究领域、学科结构和热点问题。
2.关键词的规范化
我们用Bibexcel软件做第一轮的词频分析,得到关键词列表。在对关键词进行分析之前,首先要进行关键词的规范化处理。主要包括停词表过滤,关键词的同一性等几个步骤。
(1)停词表过滤
停词表过滤的目的是将那些对文本语义信息共现不大的词语删除掉。本文的停词表包括两部分,第一部分主要是一些语义信息不大的词。如“优势”和“重要性”等等,直接删除。第二部分是出现频次非常高的关键词,但是意义过于笼统,没有实际意义,也不能够分析学科结构,也应该删除掉。如对外汉语教学(2463)、对外汉语(1218)、汉语教学(528)等。
(2)关键词的同一性
有一些关键词表述的研究领域基本相同,应该合并,否则本来应该在知识图谱中表现为一个点的关键词就分为了表述不同的几个点,不仅影响了对热点频次本身的统计,而且也会影响热点之间的关系和学科概貌的表述,不能正确反映学科的概貌。如将“偏误”和“偏误分析”合并为“偏误”,“汉语水平考试”和“HSK”合并为“汉语水平考试(HSK)”。
(3)关键词的拆分
有一些关键词其实反映了几个相关的研究领域,应该拆分。如将“语音偏误”拆分为“语音”和“偏误”,将“初级教材”,拆成“初级”和“教材”。
(三)关键词词频分析和共现图谱的绘制
经过上述处理得到文献关键词数据库,对所得到的关键词数据应用知识图谱软件进行如下分析:(1)用Bibexcel统计关键词频次,得到.cit的频次文件。例如,表1为部分关键词词频数据。(2)用Bibexcel做关键词共现关系分析,获得关键词共现关系矩阵,得到.COC共现关系文件。例如,表2为部分关键词共现关系数据。(3)利用ucinet将关键词频次文件和关键词共现关系文件转化为.##d和.##h文件。(4)用Netdraw进行可视化处理,得到反映关键词词频大小及相互共现关系强弱的图谱。例如,图1为部分高频关键词图谱。
三、对外汉语教学研究热点及概貌分析
(一)关键词词频分析结果
本研究以CAJD为基础文献库,通过Bibexcel软件对11195篇有效文章的关键词进行统计分析,我们可以得到关键词的频率表。选取其中出现频率最高的关键词,就可以大致描绘出近几十年来对外汉语教学的研究热点。
从关键词的词频统计,我们看到40年来对外汉语教学研究领域的热点关键词,这些热点关键词反映出了研究的热点领域。有些关键词联系密切,反映了相关的研究领域。我们在对这些关键词进行分析之后,可以得到如下的热点研究领域。这些热点领域分别是第二语言习得、汉字、教材、词汇、文化、语法、口语、教学法、交际、汉语水平考试以及汉语国际推广等领域。此外这些关键词涉及到分课型教学的听力、阅读和写作,由此可见,对外汉语教学的分课型研究是教学研究的热点。学者们提倡的分水平教学和分国别教学也得到了体现,研究以初级水平和日本学生为最多。
(二)关键词共现分析结果
关键词的共现关系分析反映的是常常一起出现的一些关键词,而有一些出现频率很高的关键词并没有形成频率很高的共现关系。常常一起共现的关键词反映了固定的研究领域和研究范式,同时也反映了这些研究领域的学科结构。关键词共现频次分析,前20名见表2。
根据表2,我们可以看到对外汉语教学一些比较成熟的研究领域。如:偏误、习得、中介语,它们常常一起出现,关系密切,在偏误研究方面,以语音、语用、语法的研究最多,成为热门的研究领域。汉字和形声字也成为一个热门的研究领域。这种分析方法可以让我们了解研究的热点和空白,发现学科中关系密切的关键词,了解研究范式,并厘清概念。
单从共现关系还无法看出学科的结构,借助关键词词频和共现次数,用Ucinet和Netdraw软件可以绘制对外汉语教学学科结构的知识图谱。
从11195篇中文文献中提取每篇文献的关键词,对关键词进行规范化处理,统计分析关键词词频,计算关键词的共现频次(在同一篇文章中同时出现为共现一次),选择高频关键词进行高频词共现矩阵的构建,进而用可视化软件绘制关键词共现图谱,如上图所示(为了使图谱表达清晰,该图选择共现频次大于10的关键词进行呈现)。
图中圈的大小代表了关键词的出现频次,圈越大,表示出现频次越多;连线表现了关键词的共现频次,线越粗,共现频次越大,反映了连线两端的关键词具有更强的相关性。我们会看到连线比较粗的区域集中在图谱的中心。
(三)对外汉语教学研究热点概貌分析
圖1中最大的几个圈就代表了本学科发展的热点问题,围绕这些热点形成了若干研究领域。这些领域包括汉字、偏误、语音、词汇、语用、语法、教材、教师、文化等等。知识图谱呈现的研究领域和前人学者的描述既有一致的方面,同时也有不同的面貌。
很多学者在专著中均对对外汉语教学的学科结构有过相关的论述,如刘殉(2000)、赵金铭(2004)、周小兵(2012)等。朱志平(2000:107-109)提到作为应用语言学分支的对外汉语教学的研究领域,可归纳为8个方面:汉语本体研究、汉字教学研究、第二语言学习与习得研究、汉外语言与文化对比、汉语教学法研究、教学大纲与课程设计及教材编写、语言水平与能力测试、多媒体网络汉语教学。崔永华(2005:64-68)回顾了上世纪80年代初到2005年对外汉语教学的研究热点,主要为构建学科理论框架、国外语言教学流派介绍、文化与文化教学研究、多媒体和网络教学研究、语言习得研究、汉字教学研究、汉语认知研究、研制教学大纲等八个领域。孙德金(2009:48-49)总结了对外汉语教学研究的框架,主要分为以下方面,包括总论、面向对外汉语教学的汉语本体研究,对外汉语教学研究、对外汉语习得研究、汉外对比研究、对外汉语测试研究、对外汉语教材研究、对外汉语教学史研究、对外汉语文化教学研究、现代教育技术与对外汉语教学研究十个领域。对外汉语教学研究包括分阶段教学、分课型教学、分国别教学和语言要素教学。 已有的学科概貌研究均为从逻辑线索出发,根据语音、词汇、语法等语言要素进行概括,或根据听说读写技能进行概括,形成学科框架。本文基于大数据的知识图谱分析,试图描绘对外汉语教学的研究地图。
1.对外汉语教学学科的研究已经形成了若干固定的研究领域
我们结合现代语言学的研究成果,将这些研究领域分为14个主要的类团。每一个类团就是一个内容相关、联系密切的研究领域。这些类团基本反映了30多年来对外汉语教学研究的概貌。
这些类团的概括与已有的研究相比,有一致的方面,如建立的框架基本包括了汉字研究、习得研究、本体研究、文化研究等经典领域。但是也有不一致的方面,如:呈现了不同领域之间的立体关系、习得和偏误、中介语形成了一个联系密切的研究领域。华文教育类团是一个新出现的热点领域。很多学者预言的多媒体教学并没有成为一个热门的研究领域,多媒体出现的频次不算很高(92),而且没有形成共现热点。类团及类团中包含的高频关键词见表3。
2.通过知识图谱可以观察到某一研究领域的发展程度
通过可视化知识图谱,我们可以清晰地观察到类团,了解目前形成的研究领域。而通过知识图谱的微观结构,我们可以看到某一领域发展的精细化程度,是否形成了固定的研究范式,这是衡量某一领域发展成熟的重要标志。如汉字和习得两个类团的共现关系很多,说明这两个类团的研究领域比较丰富,也形成了一些固定的研究范式。而反观教师、教材这些在教育学中已经比较成熟的领域,在对外汉语学科中却并没有体现出研究范式。
对外汉语教学是一门语言学、教育学、心理学的交叉学科,我们从图谱中可以看出,语言学的研究最为充分。作为教学内容的语言应该受到充分的关注。相比之下,教育学与心理学的研究则显得相对薄弱。
有一些研究会考虑到分国别和分阶段如初级(169)、日本学生(92)、汉语水平(92)、但是这些词都没有和其它关键词形成很强的共现关系,说明没有形式研究范式。因此不能作为一个研究领域。
四、类团结构分析——以汉字类团为例
汉字类团是研究比较充分的类团之一,共现关系比较多,研究领域比较稳定,研究范式清晰。汉字是汉语特有的文字,因此在研究中更多借鉴汉语本体的研究方法。下面以汉字类团为例,具体分析一下汉字领域的研究。
(一)汉字研究的发展趋势
汉字是汉语特有的文字,也是汉语独特性的重要表现之一。汉字研究在对外汉语教学研究中是一个重要的研究领域。汉字研究和对外汉语教学的其它领域一样经历了一个从弱到强的发展过程。
共现分析法可以为我们描绘某一关键词随时间变化的发展轨迹。我们把“汉字”作为关键词与文章发表的年份做共现分析,把每一年份和“汉字”这一关键词的共现次数,进行绘图,可以得到每一年以“汉字”作为关键词的文章。即图四。根据图2,我们可以分析“汉字”这一研究领域的发展情况。
根据汉字为关键词的文章数量的变化,我们可以看到汉字教学的研究整体呈现上升的趋势,特别是在1998年有了大幅度的增长,此后直到2007年才超过了这一水平。在前人的文献中我们也可以找到这样的一个过程及原因分析。1997年6月,国家汉办在湖北宜昌召开了首次和教学研讨会。1998年2月,世界汉语教学学会和法国汉语教师协会联合在巴黎举办了国际教学研讨会。此后,汉字和教学研究出现了一个高潮。关心对外汉字教学的刊物多了,研究的深度和广度也大大提高(李大遂,2004)。我们可以看到96、97年之后确实出现了一个明显的高潮。而在2008年之后,漢字领域也呈现了快速发展的趋势,这和对外汉语学科整体的发展趋势是一致的。
(二)汉字类团的微观结构
汉字类团由图1局部放大得到图2。我们可以看到在汉字研究领域比较热点和成熟的研究领域。在这些领域中的关键词与汉字的共现频次见表4。通过这些关键词,我们可以更直观地看到汉字教学研究知识图谱。
为了得到宏观的汉字教学研究概貌,我们的参数设置为关键词和汉字的共现关系大于10的关键词。图可以反映出汉字教学的基本领域,其中汉字与词汇、偏误和教材都是比较经典的研究领域,连线也比较粗,说明共现关系多。同样,汉字和教师以及教学方法之间的共现关系也比较多。但是这些领域都没有形成固定的研究领域。其它的共现关系形成了几个固定的研究领域,如图3所示。
1.汉字教学的定位问题
汉字是汉语的书写符号系统。要学习汉语,特别是要掌握汉语读写能力,必须学习汉字。汉字教学是对外汉语教学的重点和难点之一。对外汉语学者们在进行汉字教学之初,就认识到汉字教学具有自己的特点。关于汉字教学的定位问题也引起了学者们的讨论,在讨论的过程中,逐步确立了汉字教学的地位。对外汉语教学应该采用“字本位”还是采用“词本位”,是一直以来讨论的热点之一。在不断探索汉字特点的过程中,各种类型的汉字教材也不断出现,促进了教学的发展。
汉字作为形音义结合的语言符号系统,体系庞大,形体众多,结构复杂,读音、意义也很复杂。和拼音文字相比,汉字有很大的不同。对于非汉字文化圈的外国人来说,汉字往往是他们学习汉语最大的难点。因此,对于汉字文化圈和非汉字文化圈的学生,也应该采用不同的教学策略。
2.字形结构和形声字研究
汉字本体研究范围很广,但对外汉语教学界的本体研究相对集中,主要集中在字形结构研究和形声字研究两个方面。由于不少现当代文字学家主张文字学主要是字形学,且长期以来,对外汉语教学界对教学任务的理解也主要在教学生掌握形体,故对外汉语教学界的本体研究尤重字形结构研究。字形结构研究又可分为笔画笔顺研究和偏旁部件研究两个方面。形声字研究又主要集中在形旁和声旁研究上。(李大遂:2004)
通过知识图谱的分析,可以看到汉字教学确实形成了字形结构和形声字这样两个成熟的领域。我们判断这是成熟的研究领域是因为在领域中有很多的共现关键词,可见这个领域有固定的内容和层级性的概念。
首先汉字和拼音、字形、书写等关键词的共现,共现关系连线较粗,表示汉字教学一直非常重视字形的书写。字形书写的研究又重在结构和部件。通过知识图谱分析,
我们可以看出独体字是一个出现频率比较高的关键词,但是在以往的综述文献中,没有被指出,这也是知识图谱研究对传统的文献综述有益的补充。同时形声字、声旁也是一个重要的共现词,形成了一个汉字书写的重要研究领域。
3.认知研究
在20世纪以前,有关认知规律的研究并不是主流。但是在20世纪之后,留学生对外学习特点和习得规律日益受到重视。该领域文献主要包括三个方面:(1)从实验和模拟的角度探讨留学生对外学习特点和习得规律;(2)从不同国别探讨了留学生对外学习特点和习得规律;(3)从不同层次分析了留学生对外学习特点和习得规律(徐茗:2010)。这种研究的变化和发展也体现在了知识图谱中。我们可以看到关于字形、书写以及偏误的研究,连线都比较粗一些,可见共现率比较高。而学习策略、认知和识别的联系都比较细,可见共现率没有那么高,是20世纪后一个新兴的领域。通过关键词之间的连线,我们可以直观地观察到热点的研究领域。
五、结语
知识图谱的分析完成了过去不可能完成的任务,以海量数据为基础分析学科的概貌。尽管科学计量学早已成为一个成熟的学科,知识图谱也是一个成熟的方法。我们首次用知识图谱的方式考察对外汉语的研究范围和热点,基本符合预期,同时也验证了一些比较经典的综述性文献。通过关键词频率和共现分析以及绘制知识图谱,研究对外汉语教学研究的概貌和热点,直观清晰,很好地体现了学科概貌。在对具体类团的分析中,如汉字教学,比较清楚地反映了这一子领域的研究概貌,特别是其中比较成熟的研究范式。知识图谱的研究是对已有研究的反映。与基于逻辑分析的学科结构,可以参照,从而发现学科研究的空白领域。
这种研究方法还有更多可以应用的空间,如每一个类团都可以继续进行深入的分析,具体汉字教学、中介语、偏误分析如何随时间而变化,呈现怎样的状态,有利于我们更好地呈现,以及厘清学科概貌。本文仅是试图用知识图谱来分析对外汉语教学的一次尝试,以后还有更多的工作需要我们做。