论文部分内容阅读
引用格式:吴亚乐,刘希瑞.国内语音科学研究的知识图谱分析:基于CiteSpace和VOSviewer的综合应用[J].郑州轻工业学院学报(社会科学版),2020,21(5):93-102.
中图分类号:H01 文献标识码:A
DOI:10.12186/2020.05.014
文章编号:1009-3729(2020)05-0093-10
摘要:基于文献计量工具CiteSpace和VOSviewer绘制的科学知识图谱,进行有关语音科学的期刊发文量、关键词共现时区分布图、主要作者及其机构共现时区分布图、关键词共现标签视图共4类知识图谱分析发现:目前,国内语音科学研究在期刊发文量方面整体呈上升态势,学科发展趋势向好;1980—2020年该领域研究聚焦的热点主题主要有:“语音识别”“语音合成”“言语合成”“人工智能”“语音技术”“人机交互”等,其中人工智能是该领域的研究前沿。该领域研究目前存在的主要问题是:虽有新的学者和机构不断加入语音科学研究,但各研究者与机构之间的合作较少,各研究团队之间尚未形成研究合力和网状研究协作网络。未来国内语音科学研究将呈现出语言学语音科学研究领域不断拓展,非语言学语音科学研究向跨学科融合化和语言科学研究向社会化应用发展的趋势。
关键词:语音科学;知识图谱;CiteSpace;VOSviewer;人工智能
语音学作为语言学的一个重要分支,是专门研究人类发音的学科,包括发音语音学、声学语音学和感知语音学三个领域[1]。语音科学又称为“大语音学”,包括语言学语音学,以及其他学科领域对语音的相关研究,如声学、生物学、计算机科学、人工智能、医学、公安、司法、通信等[2]。鉴于此,本文将语音科学区分为语言学语音科学(又称“语言学语音学”)和非语言学语音科学两个方面,前者研究与语言学有关的语音问题,后者研究语言学领域之外与语音相关的问题。
国外语音科学研究起步较早,研究较为系统,涉及领域较广,研究成果也相对丰富;国内语音科学研究早期主要是借鉴国外语音科学的发展经验。国外的语音科学研究情况可通过国际语音科学大会(International Congress of Phonetic Sciences,缩写为ICPHS)的议题来管窥,如2019年在墨尔本举办的第19届ICPHS的议题涵盖社会语音学、语音情感研究、语音史、司法语音学、生理语音学、语音语料库与大数据、声学语音学、语音教学、发声态与音质、母语语音习得、双语/多语语音学、音变、语音音系接口、会话和不流利言语研究、语音学田野调查、韵律、语音技术、实验音系学、演化语音学、临床语音学、语音共性和類型、语音产出和感知、心理语音学、神经语音学、多模态语音学等多个领域。在国内,1925年北京大学刘复(刘半农)先生主持建立的“语音乐律实验室”,标志着我国现代语音科学研究的开端;之后,我国语音科学研究逐步开展,研究领域不断拓展,并不断有新的团队和高校加入,研究成果逐渐丰富,研究态势逐步走向国际化。传统语音学大多采用口耳之学,以语言调查为主,且研究人员需经过严格训练;现代语音学多采用实验的方法分析语音,采集语音样本进而开展实验分析[3]。
近年来,随着人工智能、语音识别和言语工程项目的发展,围绕人工智能、人机交互、语音技术等以语音科学应用为目的的科学研究层出不穷,鉴于目前国内关于语音科学研究的期刊文献计量分析匮乏,本文将使用文献计量分析软件CiteSpace和VOSviewer分别绘制科学知识图谱,对1980—2020年近40年国内语音科学相关论文进行科学知识图谱分析,对国内语音科学研究发展状况进行客观阐述,并对我国语音科学领域的发展作出客观的分析。
一、研究方法
1.研究问题
本论文主要回答以下4个问题:(1)国内语音科学研究的总体发展趋势如何?(2)国内语音科学研究的前沿领域和热点主题有哪些?(3)目前语音科学研究存在的问题有哪些?(4)语音科学研究的未来发展趋势怎样?
2.研究工具
本文将采用CiteSpace和VOSviewer两种文献计量工具绘制国内语音科学研究的科学知识图谱。CiteSpace是美国德雷塞尔大学信息科学与技术学院教授陈超美博士开发的一种科学文献计量软件,可用于分析文献的来源期刊、作者、机构、关键词等,自动生成可视化知识图谱,探析该领域的研究现状、热点和前沿动态[4]。VOSviewer是荷兰莱顿大学科技研究中心的Van Eck和Waltman博士联合开发的一款通过网络数据的关系(主要是文献知识单元关系)构建文献可视化分析,实现科学知识图谱绘制,展现科学知识领域的结构、进化、合作等共现关系的网络分析软件[5]。VOSviewer的主要功能有文献耦合、共被引、合作和共词分析等[6],其突出特点是图形展示能力强,侧重科学知识的可视化,适合进行大规模数据分析。
3.数据提取与处理
本论文数据来源于中国知网全文数据库,在基础学科、哲学与人文科学、社会科学Ⅱ辑、信息科技文献类别下以“语音”和“语言学”进行主题词检索;为确保精确检索到与语音科学相关的各研究领域,同时以“语音”与“科学”“技术”“工程”组合进行篇名检索,日期不限,期刊不限,在此条件下检索到相关中文文献3274篇,检索日期为2020年3月5日。为尽量实现可视化分析的科学性,经人工剔除如人物传记、访谈、综述、评论性文章、会议信息、出版信息、培训信息等无效文献,最终获得1980—2020年有效中文文献1167篇,导出可在CiteSpace和VOSviewer软件内进行分析的Ref\|works文献格式,并对之进行网络科学知识图谱绘制。
二、语音科学研究知识图谱分析与讨论
1.国内语音科学研究的总体发展趋势 本论文的文献来源于以“语音”和“语言学”为主题词的检索,对论文发文量进行可视化分析能够反映出该领域的总体发展趋势。根据收集到的文献所作的期刊文献发表量年度走势图见图1。由图1可以看出,我国语音科学研究领域在发文量方面整体处于上升趋势,发展态势良好。20世纪80年代到90年代,该领域年发文量大多保持在20—50篇,发展相对缓慢,根据中国社会科学院语言研究所刘丹青主编的《新中国语言文字研究70年》中所记录的国内语音学发展史,此阶段正值我国语音科学研究创立初期[7];20世纪90年代以后,语音科学研究进入全面发展时期,不断有新的高校科研团队加入该研究领域,如北京大学的孔江平团队、南开大学的石锋团队、香港科技大学的朱晓农团队等,1995年该领域发文量突破50篇,之后每年的发文量虽有波动,但均保持在50篇以上;进入21世纪后,随着计算机技术和智能语音技术的发展,语音科学研究发展更加迅速,2002年发文量突破100篇,2003年出现小幅回落,2004年之后一直保持在100—150篇,2018年突破150篇,达到语音科学发文量的最高点,2019年虽有小幅回落,但不影响语音科学研究发展的总体趋势。整体上我国语音科学研究处于发展上升期,不断有新的学者和高校团队加入,并持续开展相关领域研究和技术研发,科研成果丰富。
2.国内语音科学研究的前沿领域和热点主题
关键词作为论文内容的核心所在,通常是根据文章主题高度概括提炼而来的,高频关键词常被认为是其所在研究领域的焦点。关键词共现,即当同一关键词出现在不同文献中时,这些文献将会有一条线相连,它是论文主题相关性的体现,代表该领域研究各学科间的关联性。关键词共现时区图或关键词主题路径图,是在关键词共现网络知识图谱的基础上增加时间维度,从而更加清晰直观地解读该学科的研究概况和发展趋势。基于时间维度的分析最大的特点是能够直观体现该领域研究热点主题的变化趋势。以每两年为一个时间切片,提取节点类型为关键词,绘制出1980—2020年国内语音科学研究关键词共现时区图(见图2),图中圆形节点的大小代表关键词频次的多少,字号大小代表其研究热度的高低,图片上方代表年份的彩色进度条与图中线条色彩相对应,关键词对应出现的年份为该关键词在期刊文献中首次出现的年份,是学科研究热点和前沿的重要判定指标。
由图2可知,2015年左右人工智能开始出现,之后围绕其开展的相关研究较为集中,是语音科学研究领域的前沿。人工智能(Artificial Intelligence,缩写为AI),是计算机科学的一个分支,研究领域包括机器人、语言识别、图像识别、自然语言处理和专家系统,是专门研究和开发用于模拟、延伸和扩展人的智能的理论、方法、技术和应用系统的一门新的技术科学,是语音科学跨学科研究的重要领域之一。1927年,德国电影《大都会》中的人造机器人“玛利亚”是最早的人工智能机器人形象;1956年,人工智能被确立为一门学科,之后伴随着计算机的问世,全世界范围内计算机领域的科学家都在研究人工智能。人工智能发展包括深度神经网络、大数据和涟漪效应三个要素[8]。近年来,随着科大讯飞股份有限公司(以下简称为“科大讯飞”)深度神经网络结构FSMN——讯飞构型的提出,国内与人工智能有关的深度学习研究逐渐兴起。“深度学习”的概念来源于人工神经网络(Artificial Neural Network,缩写为ANN),ANN是人工智能领域中的重要模型之一[9]。
目前,人工智能语音交互技术已被广泛应用,基于深度学习的语音分离技术研究颇受关注和重视。
由图2还可看出,过去40年我国语音科学研究领域涌现出的热点主题共有14个,按其频次多少依次为“语音识别”“语音合成”“语音”“语音技术”“言语合成”“人工智能”“语言学”“语音处理”“音系学”“智能语音”“智能家居”“声学模型”“人机交互”“社会语言学”(见表1)。结合图2中节点的色调可以看出,
1980—2020年,
以“语音识别”为主题的语音科学研究始终保持其研究热度;1988年“语音合成”首次成为热词;1990年新增“言语合成”热词;1996年新增“语音技术”“多媒体技术”“人工神经网络”等热词;2000年新增“文语转换”“声学模型”热词;2004年新增“科大讯飞”“自动语音识别”热词;2008年新增“人机交互”“模式识别”“模式匹配”“语音信号处理”等热词;2015年以来新增“人工智能”“智能家居”“智能语音”“智能控制”“语音交互”“深度学习”“神经网络”等热词;其他年份虽有相关主题出现,但并未形成研究热点。从语音科学研究热点主题的变化可以看出,语音科学研究从单纯的语言学语音科学研究逐渐转向非语言学语音科学研究,并逐步聚焦于非语言学语音科学的创新性和实用性研究;语音科学主要运用科学研究结合实验语音学和传统语言学的研究方法,以声学参数为基础,设计言语声学参数分析系统,实现语音的自动切分、保存、语音类型标记、声学参数提取等语音分析的基本功能,为语音分析研究提供了方便。此外,语音科学跨学科交叉研究趋势明显,且研究成果大多直接服务于经济社会发展需要与实际社会需求,如智能家居、智能控制等。智能家居是在互联网影响之下物联化的体现[10]。智能家居能够将家中的声视频设备、照明设备、窗帘、空调等连接在一起,与人进行全方位的信息交互,且能够提升家居环境的便利性和舒适性,而智能家居利用的语音科学技术主要是语音识别和语音合成。
3.目前语音科学研究存在的问题
以每两年为一个时间切片,提取节点类型为作者和机构,绘制出1995—2020年国内从事语音科学研究的主要作者及其機构共现时区分布图(见图3)。在时间段选取方面,之所以选择1995—2020年,是因为绘制知识图谱时即使将词频阈值调至最低,1995年之前研究语音科学的主要机构在知识图谱上也无法出现,这说明我国语音科学研究起步较晚,从1990年代后期开始我国语音科学研究才进入全面发展期,与前面期刊发文量年度趋势图所显示的结果一致。在研究机构方面,1995—1997年,中国科学院声学研究所、上海交通大学、北京邮电大学、中国科学技术大学陆续开展语音科学研究;2003年,哈尔滨工程大学、清华大学、厦门大学加入语音科学研究;2007年,新疆大学和湖北师范学院加入语音科学研究;2011年,广西大学加入语音科学研究;2015年前后,各公司团队陆续加入语音科学研究,如科大讯飞、北京宇音天下科技有限公司、珠海多玩信息技术有限公司等;2018年以来,山东农业大学、河北大学、西北民族大学加入语音科学研究,我国语音科学研究蓬勃发展。尽管不断有新的学者和机构加入语音科学领域的相关研究,但由图3可知,各机构和作者之间的连线较少,说明其研究的关联性较弱,各作者和研究机构之间开展的语音科学研究相对孤立,并未形成科研合作网状网络。 由图3可知,近年来加入语音科学研究的作者与机构越来越多,语音科学研究整体上处于发展上升期,与图2所显示的结果一致。综合分析可知,在作者及其机构分布方面,语音科学研究领域呈现以下4个特点:(1)作者发文量较高且其所在机构突显,如中国科学院声学研究所的杜利民、中国科学技术大学的王仁华、清华大学的刘加、新疆大学的吾守尔·斯拉木、湖北师范大学的高红亮等,其研究成果丰硕,其所在机构该学科发展建设较好;(2)作者发文量较高但其所在机构并未出现,如朱晓农(香港科技大学)、王炳锡(解放军信息工程大学)、韩纪庆(哈尔滨工业大学),可能与该机构研究该学科的人员较少、学科建设发展缓慢有关;(3)作者所在位置与其所在机构位置相距较远,如西北民族大学的于洪志、厦门大学的李无未,这可能与作者所属机构更名、工作变动或该领域研究热点变化有关;(4)语言学语音科学研究作者及其机构显现较弱,如北京大学的孔江平、同济大学的马秋武、南开大学的石锋等都并未显现,这说明与非语言学语音科学研究相比,语言学语音科学研究所占比例较小,语音科学研究跨学科性强,其发展空间与研究态势发展良好。最后还值得一提的是,2015年前后刘豫军、夏聪、胡郁等均是公司职员,与其所在公司机构分布一致,这说明企业在该学科研究方面也有所贡献,研究成果直接转化为社会生产的趋势渐强;2018年前后张玲、张海波、周民伟、刘琳等所在研究领域均为医学,这说明语音科学具有跨学科交叉研究的趋势,也说明该学科的研究热点和前沿聚焦于语音科学的跨学科研究,与图2所显示的结果一致。
4.国内语音科学研究的未来发展趋势
在聚类方面,VOSviewer的技术更为成熟,且聚类主题突出,线条色彩明晰。利用VOSviewer选择分析单元类型为关键词共现,计数方式为全部计算,绘制出国内语音科学研究关键词共现标签视图(见图4)。图4中各节点的交叉重叠表示各期刊论文研究中相同关键词的共现关系,节点处分叉越多表明其研究主题的相关性越大;图中节点线条色彩颜色与右下方年份进度条相对应,表示该领域研究的主要关键词随时间变化的发展走势;圆形节点的大小表示关键词出现频次的多少,频次越多节点越大,其对应的关键词字号也就越大;图中①②③④⑤是对关键词共现后大致聚类的划分,以便增强知识图谱的可读性。由图4可见,语音科学研究可分为社会语音学、语言学语音学和非语言学语音学三类,逆时针罗列的五大聚类是有关语音科学研究的不同领域。其一是有关社会语言学的聚类(见①),主要节点有方言学、方言语音、比较语言学、汉藏语等,说明方言是语言学语音学研究必不可少的组成部分。语音是人类语言的主要载体。社会语言学是运用语言学和社会学等学科的主要理论和方法,从社会科学的不同角度研究语言的一门学科,对方言的研究能够促进语音科学
尤其是语言学语音学的不断发展和完善。其二是有关语言学语音学的聚类(见②),主要节点有音系学、音位系统、元音、辅音等,这些属于语言学语音学的本体研究,其对应年份主要在1990年之前,说明我国语音科学研究起步较晚,早期以语言学语音学研究为主,与前面结论一致。国内传统的语音学研究以音韵学为主,语音学研究充分借鉴了国外语音学的理论、方法和技术[11]。其三是有关语音技术的聚类(见③),主要节点有语音系统、计算机、语音输入、语音处理、语音转换等,语音技术的两项关键技术是语音合成和语音识别,语音合成技术使机器说话成为现实;语音识别技术能够使机器听懂人说话,最终达到人机交互。语音技术的聚类说明国内语音科学研究逐渐由语言学语音学转向以语音技术为主的非语言学语音学研究。其四是有关人机交互的聚类(见④),主要节点有人工智能、智能语音、语音交互、深度学习等,人机交互是自然人与计算机或智能机器之间通过语言对话,完成确定任务的信息交换过程;语音科学研究是实现人机交互必不可少的关键领域研究,这说明语音科学具有跨学科研究发展趋势。其五是有关智能家居的聚类(见⑤),主要节点有语音控制、机器人控制、智能控制等,这些属于语音科学的应用性发展研究,说明语音科学技术反哺于社会实际应用,先进科学技术的发展离不开学界的科研支撑。综上所述,目前国内语音科学研究主要有语言学语音学研究和非语言学语音学研究两大类,研究趋势是语言学语音学逐渐转向非语言学语音学研究,该领域的发展逐步以社会应用为最终目的。
三、国内语音科学研究展望
综合以上基于1167篇有关语音科学的期刊文献进行的科学知识图谱分析,并通过对语言学语音学和非语言学语音学领域高被引文献的研读,未来国内语音科学研究凸显以下三个方面特点。
1.语言学语音科学研究向纵深化方向发展
语音是语言的主要载体,语音学是专门研究人类语言的科学,语音学研究以实验研究为主,主要依靠仪器的帮助精密分析发音生理和物理现象的科学,即所谓的实验语音学[12]。语言学语音学研究多是基于声学实验的研究,如声调、语调、发音器官运动等。近年来,随着科学技术的飞速发展,学术界的研究也逐渐向科学性方向发展,而在语音学领域,实验语音学在传统语音研究領域的发展,为我们观察人类语言中的语音现象提供了新的理论视角与方法工具[13]。在研究对象上,国内语音学研究更加注重方言和少数民族语言研究。少数民族语言,由于在人数方面存在劣势,加之受到标准汉语普通话的影响,有濒危甚至消失的危险,21世纪初濒危语言问题引起了政府的关注,各种基金开始资助这类研究[14]。此外,少数民族语音研究也逐渐向多元化和多模态化方向发展,如少数民族唱法研究,少数民族语音病理研究,诵经发声、少数民族语声纹鉴定研究,以及少数民族语唇形研究等[15]。在研究内容上,传统语音学研究多围绕声韵调等内容,而现代语音学逐渐注重韵律、语调音系、语音情感的研究,特别是随着语音识别技术的发展,语音情感研究不断深入发展。韩文静等[16]指出,语音情感识别在众多具有自然人机交互需求的领域内应用广泛。在研究方法上,语音学研究大都是基于声音语料的实验研究,以生理分析、声学分析、感知分析等为主,脑科学的仪器和方法越来越多地得到应用;同时,在语料选取方面,除实验室操控语料外,自然语料也逐渐纳入进来。 2.非语言学语音科学研究向跨学科融合化方向发展
语音技术、人工智能、人机交互、智能控制等都是语音科学跨学科研究的重要领域。语音技术的发展离不开语音科学方向的科研支撑,语音技术在计算机领域中的关键技术有自动语音识别技术和语音合成技术。语音识别是计算机通过识别语音信号,将语音转换为相应文本的技术,属于多维模式识别和智能计算机接口的范畴[17];语音合成涉及声学、语言学、数字信号处理、计算机科学等多个学科,主要解决将文字信息转化为声音信息的相关问题,即使机器像人一样开口说话[18]。语音技术的相关研究和广泛应用说明语音科学具有跨学科融合发展趋势。在语音教学方面,语音科学与计算机IT行业相融合开发的可视化智能发音软件,可大大提高语言学习者的发音准确率;在病理语音研究方面,现代语音科学与医学相结合,研制上市的可调节频率的助听器、“人工耳蜗”等,可把纽扣般的器具埋在内耳来感应声浪,获得更好的听音效果。这些都表明语音科学的跨学科融合化发展趋势。
3.语音科学研究向社会应用化方向发展
从最初信息查询的自助语音服务系统,到目前常见的以语音交互为技术核心的移动智能终端,如智能音箱、智能家居、智能车载语音系统等,都是語音技术的社会化应用。语音科学以社会终端应用为目的的研究将语音科学研究成果直接转化为社会生产的趋势逐渐增强。以科大讯飞的语音识别技术为例,2010年科大讯飞首次推出讯飞语音输入法,正确率仅为55%;2014年科大讯飞正式推出“讯飞超脑计划”;2015年科大讯飞语音识别系统全面升级;之后依托人工智能技术,科大讯飞不断向面对面翻译、文字扫描识别、方言识别、医疗等领域发展。基于语言学语音学基础理论的语音识别、语音合成、言语合成、人工智能、人机交互等技术性研究应用均属于语音科学的社会应用实践性研究,是新时代语音科学研究的重要发展方向。同时,这些研究也将逐渐应用于医疗、金融、军事、公安、司法等领域,服务于新时代的社会主义现代化建设。
四、结语
采用文献计量工具CiteSpace和VOSviewer绘制科学知识图谱,进行有关语音科学的期刊发文量、关键词共现时区分布图、主要作者及其机构共现时区分布图、关键词共现标签视图共4类知识图谱分析发现:目前,国内语音科学研究在期刊发文量方面整体呈上升态势,学科发展趋势向好;1980—2020年该领域研究聚焦的热点主题主要有“语音识别”“语音合成”“言语合成”“人工智能”“语音技术”“人机交互”等,其中人工智能是该领域的研究前沿。该领域研究目前存在的主要问题是:虽有新的学者和机构不断加入语音科学研究,但各研究者与机构之间的合作较少,各研究团队之间尚未形成研究合力和网状研究协作网络。未来国内语音科学研究将呈现出语言学语音学研究领域不断拓展,非语言学语音学研究向跨学科融合化和语言科学研究向社会化应用发展的趋势。以上是基于语音科学知识图谱对我国国内语音科学发展现状作出的客观性总结,研究结果是对期刊文献数据的科学性解读,虽数据来源有限,结论也相对受限,但仍具有一定的参考价值。国内语音科学研究有较大的研究空间和研究价值,希望相关学者能够继续深入研究,为我国语音科学相关领域的发展贡献力量。
参考文献:
[1]LADEFOGED P,JOHNSON K.A course in phonetics[M].7th ed.影印本.北京:北京大学出版社,2015:1-56.
[2] 朱晓农.语音学[M].北京:商务印书馆,2010:1-5.
[3] 石锋,时秀娟.语音样品的选取和实验数据的分析[J].语言科学,2007(2):23.
[4] CHEN C M.CiteSpace Ⅱ: Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006(3):359.
[5] ECK N J V,WALTMAN L.Software survey: VOSviewer,a computer program for bibliometric mapping[J].Scientometrics,2010(2):523.
[6] 李杰.科学知识图谱原理及应用:VOSviewer和CitNetExplorer初学者指南[M].北京:高等教育出版社,2018:21-25.
[7] 刘丹青.新中国语言文字研究70年[M].北京:中国社会科学出版社,2019:108-125.
[8] 胡郁.人工智能与语音识别技术[J].电子产品世界,2016(4):23.
[9] 戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017(2):221.
[10]李天祥.Android物联网开发细致入门与最佳实践[M].北京:中国铁道出版社,2016:14-15.
[11]史宝辉.我国语音学与音系学研究现状和发展方向[J].外语教学与研究,1996(2):20.
[12]吴宗济,林茂灿.实验语音学概要[M].北京:高等教育出版社,1989:1-11.
[13]胡方.汉语方言的实验语音学研究旨趣[J].方言,2018(4):385.
[14]范俊军.中国的濒危语言保存和保护[J].暨南学报(哲学社会科学版),2018(10):1.
[15]金雅声,胡阿旭.少数民族语音多元化和多模态研究[J].西北民族大学学报(哲学社会科学版),2009(3):77.
[16]韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014(1):37.
[17]高新涛,陈乖丽.语音识别技术的发展现状及应用前景[J].甘肃科技纵横,2007(4):13.
[18]张斌,全昌勤,任福继.语音合成方法和发展综述[J].小型微型计算机系统,2016(1):186.
[收稿日期]2020-04-10
[基金项目]国家社科基金项目(19CYY042);河南省哲学社会科学规划项目(2017CYY026)
[作者简介]吴亚乐(1992—),女,河南省平顶山市人,河南工业大学硕士研究生,主要研究方向:语音学与音系学;刘希瑞(1984—),男,河南省洛阳市人,河南工业大学副教授,博士,主要研究方向:语音学与音系学。
中图分类号:H01 文献标识码:A
DOI:10.12186/2020.05.014
文章编号:1009-3729(2020)05-0093-10
摘要:基于文献计量工具CiteSpace和VOSviewer绘制的科学知识图谱,进行有关语音科学的期刊发文量、关键词共现时区分布图、主要作者及其机构共现时区分布图、关键词共现标签视图共4类知识图谱分析发现:目前,国内语音科学研究在期刊发文量方面整体呈上升态势,学科发展趋势向好;1980—2020年该领域研究聚焦的热点主题主要有:“语音识别”“语音合成”“言语合成”“人工智能”“语音技术”“人机交互”等,其中人工智能是该领域的研究前沿。该领域研究目前存在的主要问题是:虽有新的学者和机构不断加入语音科学研究,但各研究者与机构之间的合作较少,各研究团队之间尚未形成研究合力和网状研究协作网络。未来国内语音科学研究将呈现出语言学语音科学研究领域不断拓展,非语言学语音科学研究向跨学科融合化和语言科学研究向社会化应用发展的趋势。
关键词:语音科学;知识图谱;CiteSpace;VOSviewer;人工智能
语音学作为语言学的一个重要分支,是专门研究人类发音的学科,包括发音语音学、声学语音学和感知语音学三个领域[1]。语音科学又称为“大语音学”,包括语言学语音学,以及其他学科领域对语音的相关研究,如声学、生物学、计算机科学、人工智能、医学、公安、司法、通信等[2]。鉴于此,本文将语音科学区分为语言学语音科学(又称“语言学语音学”)和非语言学语音科学两个方面,前者研究与语言学有关的语音问题,后者研究语言学领域之外与语音相关的问题。
国外语音科学研究起步较早,研究较为系统,涉及领域较广,研究成果也相对丰富;国内语音科学研究早期主要是借鉴国外语音科学的发展经验。国外的语音科学研究情况可通过国际语音科学大会(International Congress of Phonetic Sciences,缩写为ICPHS)的议题来管窥,如2019年在墨尔本举办的第19届ICPHS的议题涵盖社会语音学、语音情感研究、语音史、司法语音学、生理语音学、语音语料库与大数据、声学语音学、语音教学、发声态与音质、母语语音习得、双语/多语语音学、音变、语音音系接口、会话和不流利言语研究、语音学田野调查、韵律、语音技术、实验音系学、演化语音学、临床语音学、语音共性和類型、语音产出和感知、心理语音学、神经语音学、多模态语音学等多个领域。在国内,1925年北京大学刘复(刘半农)先生主持建立的“语音乐律实验室”,标志着我国现代语音科学研究的开端;之后,我国语音科学研究逐步开展,研究领域不断拓展,并不断有新的团队和高校加入,研究成果逐渐丰富,研究态势逐步走向国际化。传统语音学大多采用口耳之学,以语言调查为主,且研究人员需经过严格训练;现代语音学多采用实验的方法分析语音,采集语音样本进而开展实验分析[3]。
近年来,随着人工智能、语音识别和言语工程项目的发展,围绕人工智能、人机交互、语音技术等以语音科学应用为目的的科学研究层出不穷,鉴于目前国内关于语音科学研究的期刊文献计量分析匮乏,本文将使用文献计量分析软件CiteSpace和VOSviewer分别绘制科学知识图谱,对1980—2020年近40年国内语音科学相关论文进行科学知识图谱分析,对国内语音科学研究发展状况进行客观阐述,并对我国语音科学领域的发展作出客观的分析。
一、研究方法
1.研究问题
本论文主要回答以下4个问题:(1)国内语音科学研究的总体发展趋势如何?(2)国内语音科学研究的前沿领域和热点主题有哪些?(3)目前语音科学研究存在的问题有哪些?(4)语音科学研究的未来发展趋势怎样?
2.研究工具
本文将采用CiteSpace和VOSviewer两种文献计量工具绘制国内语音科学研究的科学知识图谱。CiteSpace是美国德雷塞尔大学信息科学与技术学院教授陈超美博士开发的一种科学文献计量软件,可用于分析文献的来源期刊、作者、机构、关键词等,自动生成可视化知识图谱,探析该领域的研究现状、热点和前沿动态[4]。VOSviewer是荷兰莱顿大学科技研究中心的Van Eck和Waltman博士联合开发的一款通过网络数据的关系(主要是文献知识单元关系)构建文献可视化分析,实现科学知识图谱绘制,展现科学知识领域的结构、进化、合作等共现关系的网络分析软件[5]。VOSviewer的主要功能有文献耦合、共被引、合作和共词分析等[6],其突出特点是图形展示能力强,侧重科学知识的可视化,适合进行大规模数据分析。
3.数据提取与处理
本论文数据来源于中国知网全文数据库,在基础学科、哲学与人文科学、社会科学Ⅱ辑、信息科技文献类别下以“语音”和“语言学”进行主题词检索;为确保精确检索到与语音科学相关的各研究领域,同时以“语音”与“科学”“技术”“工程”组合进行篇名检索,日期不限,期刊不限,在此条件下检索到相关中文文献3274篇,检索日期为2020年3月5日。为尽量实现可视化分析的科学性,经人工剔除如人物传记、访谈、综述、评论性文章、会议信息、出版信息、培训信息等无效文献,最终获得1980—2020年有效中文文献1167篇,导出可在CiteSpace和VOSviewer软件内进行分析的Ref\|works文献格式,并对之进行网络科学知识图谱绘制。
二、语音科学研究知识图谱分析与讨论
1.国内语音科学研究的总体发展趋势 本论文的文献来源于以“语音”和“语言学”为主题词的检索,对论文发文量进行可视化分析能够反映出该领域的总体发展趋势。根据收集到的文献所作的期刊文献发表量年度走势图见图1。由图1可以看出,我国语音科学研究领域在发文量方面整体处于上升趋势,发展态势良好。20世纪80年代到90年代,该领域年发文量大多保持在20—50篇,发展相对缓慢,根据中国社会科学院语言研究所刘丹青主编的《新中国语言文字研究70年》中所记录的国内语音学发展史,此阶段正值我国语音科学研究创立初期[7];20世纪90年代以后,语音科学研究进入全面发展时期,不断有新的高校科研团队加入该研究领域,如北京大学的孔江平团队、南开大学的石锋团队、香港科技大学的朱晓农团队等,1995年该领域发文量突破50篇,之后每年的发文量虽有波动,但均保持在50篇以上;进入21世纪后,随着计算机技术和智能语音技术的发展,语音科学研究发展更加迅速,2002年发文量突破100篇,2003年出现小幅回落,2004年之后一直保持在100—150篇,2018年突破150篇,达到语音科学发文量的最高点,2019年虽有小幅回落,但不影响语音科学研究发展的总体趋势。整体上我国语音科学研究处于发展上升期,不断有新的学者和高校团队加入,并持续开展相关领域研究和技术研发,科研成果丰富。
2.国内语音科学研究的前沿领域和热点主题
关键词作为论文内容的核心所在,通常是根据文章主题高度概括提炼而来的,高频关键词常被认为是其所在研究领域的焦点。关键词共现,即当同一关键词出现在不同文献中时,这些文献将会有一条线相连,它是论文主题相关性的体现,代表该领域研究各学科间的关联性。关键词共现时区图或关键词主题路径图,是在关键词共现网络知识图谱的基础上增加时间维度,从而更加清晰直观地解读该学科的研究概况和发展趋势。基于时间维度的分析最大的特点是能够直观体现该领域研究热点主题的变化趋势。以每两年为一个时间切片,提取节点类型为关键词,绘制出1980—2020年国内语音科学研究关键词共现时区图(见图2),图中圆形节点的大小代表关键词频次的多少,字号大小代表其研究热度的高低,图片上方代表年份的彩色进度条与图中线条色彩相对应,关键词对应出现的年份为该关键词在期刊文献中首次出现的年份,是学科研究热点和前沿的重要判定指标。
由图2可知,2015年左右人工智能开始出现,之后围绕其开展的相关研究较为集中,是语音科学研究领域的前沿。人工智能(Artificial Intelligence,缩写为AI),是计算机科学的一个分支,研究领域包括机器人、语言识别、图像识别、自然语言处理和专家系统,是专门研究和开发用于模拟、延伸和扩展人的智能的理论、方法、技术和应用系统的一门新的技术科学,是语音科学跨学科研究的重要领域之一。1927年,德国电影《大都会》中的人造机器人“玛利亚”是最早的人工智能机器人形象;1956年,人工智能被确立为一门学科,之后伴随着计算机的问世,全世界范围内计算机领域的科学家都在研究人工智能。人工智能发展包括深度神经网络、大数据和涟漪效应三个要素[8]。近年来,随着科大讯飞股份有限公司(以下简称为“科大讯飞”)深度神经网络结构FSMN——讯飞构型的提出,国内与人工智能有关的深度学习研究逐渐兴起。“深度学习”的概念来源于人工神经网络(Artificial Neural Network,缩写为ANN),ANN是人工智能领域中的重要模型之一[9]。
目前,人工智能语音交互技术已被广泛应用,基于深度学习的语音分离技术研究颇受关注和重视。
由图2还可看出,过去40年我国语音科学研究领域涌现出的热点主题共有14个,按其频次多少依次为“语音识别”“语音合成”“语音”“语音技术”“言语合成”“人工智能”“语言学”“语音处理”“音系学”“智能语音”“智能家居”“声学模型”“人机交互”“社会语言学”(见表1)。结合图2中节点的色调可以看出,
1980—2020年,
以“语音识别”为主题的语音科学研究始终保持其研究热度;1988年“语音合成”首次成为热词;1990年新增“言语合成”热词;1996年新增“语音技术”“多媒体技术”“人工神经网络”等热词;2000年新增“文语转换”“声学模型”热词;2004年新增“科大讯飞”“自动语音识别”热词;2008年新增“人机交互”“模式识别”“模式匹配”“语音信号处理”等热词;2015年以来新增“人工智能”“智能家居”“智能语音”“智能控制”“语音交互”“深度学习”“神经网络”等热词;其他年份虽有相关主题出现,但并未形成研究热点。从语音科学研究热点主题的变化可以看出,语音科学研究从单纯的语言学语音科学研究逐渐转向非语言学语音科学研究,并逐步聚焦于非语言学语音科学的创新性和实用性研究;语音科学主要运用科学研究结合实验语音学和传统语言学的研究方法,以声学参数为基础,设计言语声学参数分析系统,实现语音的自动切分、保存、语音类型标记、声学参数提取等语音分析的基本功能,为语音分析研究提供了方便。此外,语音科学跨学科交叉研究趋势明显,且研究成果大多直接服务于经济社会发展需要与实际社会需求,如智能家居、智能控制等。智能家居是在互联网影响之下物联化的体现[10]。智能家居能够将家中的声视频设备、照明设备、窗帘、空调等连接在一起,与人进行全方位的信息交互,且能够提升家居环境的便利性和舒适性,而智能家居利用的语音科学技术主要是语音识别和语音合成。
3.目前语音科学研究存在的问题
以每两年为一个时间切片,提取节点类型为作者和机构,绘制出1995—2020年国内从事语音科学研究的主要作者及其機构共现时区分布图(见图3)。在时间段选取方面,之所以选择1995—2020年,是因为绘制知识图谱时即使将词频阈值调至最低,1995年之前研究语音科学的主要机构在知识图谱上也无法出现,这说明我国语音科学研究起步较晚,从1990年代后期开始我国语音科学研究才进入全面发展期,与前面期刊发文量年度趋势图所显示的结果一致。在研究机构方面,1995—1997年,中国科学院声学研究所、上海交通大学、北京邮电大学、中国科学技术大学陆续开展语音科学研究;2003年,哈尔滨工程大学、清华大学、厦门大学加入语音科学研究;2007年,新疆大学和湖北师范学院加入语音科学研究;2011年,广西大学加入语音科学研究;2015年前后,各公司团队陆续加入语音科学研究,如科大讯飞、北京宇音天下科技有限公司、珠海多玩信息技术有限公司等;2018年以来,山东农业大学、河北大学、西北民族大学加入语音科学研究,我国语音科学研究蓬勃发展。尽管不断有新的学者和机构加入语音科学领域的相关研究,但由图3可知,各机构和作者之间的连线较少,说明其研究的关联性较弱,各作者和研究机构之间开展的语音科学研究相对孤立,并未形成科研合作网状网络。 由图3可知,近年来加入语音科学研究的作者与机构越来越多,语音科学研究整体上处于发展上升期,与图2所显示的结果一致。综合分析可知,在作者及其机构分布方面,语音科学研究领域呈现以下4个特点:(1)作者发文量较高且其所在机构突显,如中国科学院声学研究所的杜利民、中国科学技术大学的王仁华、清华大学的刘加、新疆大学的吾守尔·斯拉木、湖北师范大学的高红亮等,其研究成果丰硕,其所在机构该学科发展建设较好;(2)作者发文量较高但其所在机构并未出现,如朱晓农(香港科技大学)、王炳锡(解放军信息工程大学)、韩纪庆(哈尔滨工业大学),可能与该机构研究该学科的人员较少、学科建设发展缓慢有关;(3)作者所在位置与其所在机构位置相距较远,如西北民族大学的于洪志、厦门大学的李无未,这可能与作者所属机构更名、工作变动或该领域研究热点变化有关;(4)语言学语音科学研究作者及其机构显现较弱,如北京大学的孔江平、同济大学的马秋武、南开大学的石锋等都并未显现,这说明与非语言学语音科学研究相比,语言学语音科学研究所占比例较小,语音科学研究跨学科性强,其发展空间与研究态势发展良好。最后还值得一提的是,2015年前后刘豫军、夏聪、胡郁等均是公司职员,与其所在公司机构分布一致,这说明企业在该学科研究方面也有所贡献,研究成果直接转化为社会生产的趋势渐强;2018年前后张玲、张海波、周民伟、刘琳等所在研究领域均为医学,这说明语音科学具有跨学科交叉研究的趋势,也说明该学科的研究热点和前沿聚焦于语音科学的跨学科研究,与图2所显示的结果一致。
4.国内语音科学研究的未来发展趋势
在聚类方面,VOSviewer的技术更为成熟,且聚类主题突出,线条色彩明晰。利用VOSviewer选择分析单元类型为关键词共现,计数方式为全部计算,绘制出国内语音科学研究关键词共现标签视图(见图4)。图4中各节点的交叉重叠表示各期刊论文研究中相同关键词的共现关系,节点处分叉越多表明其研究主题的相关性越大;图中节点线条色彩颜色与右下方年份进度条相对应,表示该领域研究的主要关键词随时间变化的发展走势;圆形节点的大小表示关键词出现频次的多少,频次越多节点越大,其对应的关键词字号也就越大;图中①②③④⑤是对关键词共现后大致聚类的划分,以便增强知识图谱的可读性。由图4可见,语音科学研究可分为社会语音学、语言学语音学和非语言学语音学三类,逆时针罗列的五大聚类是有关语音科学研究的不同领域。其一是有关社会语言学的聚类(见①),主要节点有方言学、方言语音、比较语言学、汉藏语等,说明方言是语言学语音学研究必不可少的组成部分。语音是人类语言的主要载体。社会语言学是运用语言学和社会学等学科的主要理论和方法,从社会科学的不同角度研究语言的一门学科,对方言的研究能够促进语音科学
尤其是语言学语音学的不断发展和完善。其二是有关语言学语音学的聚类(见②),主要节点有音系学、音位系统、元音、辅音等,这些属于语言学语音学的本体研究,其对应年份主要在1990年之前,说明我国语音科学研究起步较晚,早期以语言学语音学研究为主,与前面结论一致。国内传统的语音学研究以音韵学为主,语音学研究充分借鉴了国外语音学的理论、方法和技术[11]。其三是有关语音技术的聚类(见③),主要节点有语音系统、计算机、语音输入、语音处理、语音转换等,语音技术的两项关键技术是语音合成和语音识别,语音合成技术使机器说话成为现实;语音识别技术能够使机器听懂人说话,最终达到人机交互。语音技术的聚类说明国内语音科学研究逐渐由语言学语音学转向以语音技术为主的非语言学语音学研究。其四是有关人机交互的聚类(见④),主要节点有人工智能、智能语音、语音交互、深度学习等,人机交互是自然人与计算机或智能机器之间通过语言对话,完成确定任务的信息交换过程;语音科学研究是实现人机交互必不可少的关键领域研究,这说明语音科学具有跨学科研究发展趋势。其五是有关智能家居的聚类(见⑤),主要节点有语音控制、机器人控制、智能控制等,这些属于语音科学的应用性发展研究,说明语音科学技术反哺于社会实际应用,先进科学技术的发展离不开学界的科研支撑。综上所述,目前国内语音科学研究主要有语言学语音学研究和非语言学语音学研究两大类,研究趋势是语言学语音学逐渐转向非语言学语音学研究,该领域的发展逐步以社会应用为最终目的。
三、国内语音科学研究展望
综合以上基于1167篇有关语音科学的期刊文献进行的科学知识图谱分析,并通过对语言学语音学和非语言学语音学领域高被引文献的研读,未来国内语音科学研究凸显以下三个方面特点。
1.语言学语音科学研究向纵深化方向发展
语音是语言的主要载体,语音学是专门研究人类语言的科学,语音学研究以实验研究为主,主要依靠仪器的帮助精密分析发音生理和物理现象的科学,即所谓的实验语音学[12]。语言学语音学研究多是基于声学实验的研究,如声调、语调、发音器官运动等。近年来,随着科学技术的飞速发展,学术界的研究也逐渐向科学性方向发展,而在语音学领域,实验语音学在传统语音研究領域的发展,为我们观察人类语言中的语音现象提供了新的理论视角与方法工具[13]。在研究对象上,国内语音学研究更加注重方言和少数民族语言研究。少数民族语言,由于在人数方面存在劣势,加之受到标准汉语普通话的影响,有濒危甚至消失的危险,21世纪初濒危语言问题引起了政府的关注,各种基金开始资助这类研究[14]。此外,少数民族语音研究也逐渐向多元化和多模态化方向发展,如少数民族唱法研究,少数民族语音病理研究,诵经发声、少数民族语声纹鉴定研究,以及少数民族语唇形研究等[15]。在研究内容上,传统语音学研究多围绕声韵调等内容,而现代语音学逐渐注重韵律、语调音系、语音情感的研究,特别是随着语音识别技术的发展,语音情感研究不断深入发展。韩文静等[16]指出,语音情感识别在众多具有自然人机交互需求的领域内应用广泛。在研究方法上,语音学研究大都是基于声音语料的实验研究,以生理分析、声学分析、感知分析等为主,脑科学的仪器和方法越来越多地得到应用;同时,在语料选取方面,除实验室操控语料外,自然语料也逐渐纳入进来。 2.非语言学语音科学研究向跨学科融合化方向发展
语音技术、人工智能、人机交互、智能控制等都是语音科学跨学科研究的重要领域。语音技术的发展离不开语音科学方向的科研支撑,语音技术在计算机领域中的关键技术有自动语音识别技术和语音合成技术。语音识别是计算机通过识别语音信号,将语音转换为相应文本的技术,属于多维模式识别和智能计算机接口的范畴[17];语音合成涉及声学、语言学、数字信号处理、计算机科学等多个学科,主要解决将文字信息转化为声音信息的相关问题,即使机器像人一样开口说话[18]。语音技术的相关研究和广泛应用说明语音科学具有跨学科融合发展趋势。在语音教学方面,语音科学与计算机IT行业相融合开发的可视化智能发音软件,可大大提高语言学习者的发音准确率;在病理语音研究方面,现代语音科学与医学相结合,研制上市的可调节频率的助听器、“人工耳蜗”等,可把纽扣般的器具埋在内耳来感应声浪,获得更好的听音效果。这些都表明语音科学的跨学科融合化发展趋势。
3.语音科学研究向社会应用化方向发展
从最初信息查询的自助语音服务系统,到目前常见的以语音交互为技术核心的移动智能终端,如智能音箱、智能家居、智能车载语音系统等,都是語音技术的社会化应用。语音科学以社会终端应用为目的的研究将语音科学研究成果直接转化为社会生产的趋势逐渐增强。以科大讯飞的语音识别技术为例,2010年科大讯飞首次推出讯飞语音输入法,正确率仅为55%;2014年科大讯飞正式推出“讯飞超脑计划”;2015年科大讯飞语音识别系统全面升级;之后依托人工智能技术,科大讯飞不断向面对面翻译、文字扫描识别、方言识别、医疗等领域发展。基于语言学语音学基础理论的语音识别、语音合成、言语合成、人工智能、人机交互等技术性研究应用均属于语音科学的社会应用实践性研究,是新时代语音科学研究的重要发展方向。同时,这些研究也将逐渐应用于医疗、金融、军事、公安、司法等领域,服务于新时代的社会主义现代化建设。
四、结语
采用文献计量工具CiteSpace和VOSviewer绘制科学知识图谱,进行有关语音科学的期刊发文量、关键词共现时区分布图、主要作者及其机构共现时区分布图、关键词共现标签视图共4类知识图谱分析发现:目前,国内语音科学研究在期刊发文量方面整体呈上升态势,学科发展趋势向好;1980—2020年该领域研究聚焦的热点主题主要有“语音识别”“语音合成”“言语合成”“人工智能”“语音技术”“人机交互”等,其中人工智能是该领域的研究前沿。该领域研究目前存在的主要问题是:虽有新的学者和机构不断加入语音科学研究,但各研究者与机构之间的合作较少,各研究团队之间尚未形成研究合力和网状研究协作网络。未来国内语音科学研究将呈现出语言学语音学研究领域不断拓展,非语言学语音学研究向跨学科融合化和语言科学研究向社会化应用发展的趋势。以上是基于语音科学知识图谱对我国国内语音科学发展现状作出的客观性总结,研究结果是对期刊文献数据的科学性解读,虽数据来源有限,结论也相对受限,但仍具有一定的参考价值。国内语音科学研究有较大的研究空间和研究价值,希望相关学者能够继续深入研究,为我国语音科学相关领域的发展贡献力量。
参考文献:
[1]LADEFOGED P,JOHNSON K.A course in phonetics[M].7th ed.影印本.北京:北京大学出版社,2015:1-56.
[2] 朱晓农.语音学[M].北京:商务印书馆,2010:1-5.
[3] 石锋,时秀娟.语音样品的选取和实验数据的分析[J].语言科学,2007(2):23.
[4] CHEN C M.CiteSpace Ⅱ: Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006(3):359.
[5] ECK N J V,WALTMAN L.Software survey: VOSviewer,a computer program for bibliometric mapping[J].Scientometrics,2010(2):523.
[6] 李杰.科学知识图谱原理及应用:VOSviewer和CitNetExplorer初学者指南[M].北京:高等教育出版社,2018:21-25.
[7] 刘丹青.新中国语言文字研究70年[M].北京:中国社会科学出版社,2019:108-125.
[8] 胡郁.人工智能与语音识别技术[J].电子产品世界,2016(4):23.
[9] 戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017(2):221.
[10]李天祥.Android物联网开发细致入门与最佳实践[M].北京:中国铁道出版社,2016:14-15.
[11]史宝辉.我国语音学与音系学研究现状和发展方向[J].外语教学与研究,1996(2):20.
[12]吴宗济,林茂灿.实验语音学概要[M].北京:高等教育出版社,1989:1-11.
[13]胡方.汉语方言的实验语音学研究旨趣[J].方言,2018(4):385.
[14]范俊军.中国的濒危语言保存和保护[J].暨南学报(哲学社会科学版),2018(10):1.
[15]金雅声,胡阿旭.少数民族语音多元化和多模态研究[J].西北民族大学学报(哲学社会科学版),2009(3):77.
[16]韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014(1):37.
[17]高新涛,陈乖丽.语音识别技术的发展现状及应用前景[J].甘肃科技纵横,2007(4):13.
[18]张斌,全昌勤,任福继.语音合成方法和发展综述[J].小型微型计算机系统,2016(1):186.
[收稿日期]2020-04-10
[基金项目]国家社科基金项目(19CYY042);河南省哲学社会科学规划项目(2017CYY026)
[作者简介]吴亚乐(1992—),女,河南省平顶山市人,河南工业大学硕士研究生,主要研究方向:语音学与音系学;刘希瑞(1984—),男,河南省洛阳市人,河南工业大学副教授,博士,主要研究方向:语音学与音系学。