论文部分内容阅读
摘 要 英语词汇数据分析近年来发展较快,数据采集是词汇数据分析的基础工作。介绍利用英语词汇分析工具专用软件采集词汇数据,包括采集范畴、数据类型和相关性质。
关键词 英语词汇;英语词汇分析工具;数据采集
中图分类号:H319.3 文献标识码:B
文章编号:1671-489X(2017)08-0027-04
Abstract Recently there has been a fairly great rapid development in
the data analysis for the English vocabulary. The data collection serves as the basis for the vocabulary data analysis. The present paper
will give an introduction to the collection of vocabulary data, inclu-
ding the collection scope, the data kinds and the relative correspon-ding qualities by using the special software An Analysis Tool for the English Vocabulary.
Key words English vocabulary; an analysis tool for the English vocabulary; data collection
1 引言
英語语言研究中词汇研究占有重要位置。利用维普期刊资源整合服务平台[1]对国内1989—2016年期刊发表的文献进行关键词检索,英语研究类文献中词汇研究文献多达22 600篇。其中英语词汇数据研究文献1989—1998年仅为4篇,1999—2008年增至8篇,2009—2016年则达到25篇,显示出词汇数据分析研究领域发展很快。随着新技术不断地引入和更多研究人员的参与,未来英语词汇的数据研究必将成为新的热点,将在语言研究中发挥重要作用。英语词汇数据研究是基于对词汇特征数据的分析,往往材料本身词汇数量庞大、变化形式繁多,手工采集数据极其困难。本文简单介绍利用“英语词汇分析工具”软件采集英语文本中的词汇数据。
2 软件概貌
“英语词汇分析工具”软件是由南通大学李冬编制[2],软件可以在各类Windows操作平台安装、运行,操作界面简单友好(见图1、图2),帮助文件完整,一般不需专门学习就能操作使用。数据采集操作过程包括导入纯文本文件格式的英语文本材料、设置采集目标模式、运行程序完成数据采集和生成对应的数据文件。数据文件存放在指定的文件夹内,采用TXT纯文本文件格式,需要标色显示的数据文件则为HTML文件格式。
3 常用数据采集
英语词汇的数据研究依研究目标确定与其相关联的特征数据作为研究基础,采集数据,然后进行直观比较、数学分析,获得科学结论。“英语词汇分析工具”可以采集文本中下列词汇特征数据。
1)形符,又称词符、总词汇量,指材料中所有出现过的单词,包括重复出现的单词,它是观察材料篇幅大小的直观数据。
2)类符,又称词型,指材料中不重复出现的单词(仅字母排列形式不同,如look、looking、looked可看作三个类符),所以可看作不重复的形符,如在教材研究[3]和试卷研究[4]中形符、类符数据的统计。
3)词汇:以原型词为区分标准做统计,排除了如名词的单/复数、动词的时态、形容词的比较级等变化形式干扰。
4)词汇密度:衡量单位文章信息含量的尺度,反映语篇难易程度的数据[5]。计算采用类符/形符比值(英文缩写为TTR),计算公式:
TTR=(类符数/形符数)×100%
5)词汇覆盖率:用词汇做计数单位,以某个词汇表作为测量尺度,统计文章中词汇在词汇表中数量的占比,依此判断文章与词汇表的关系程度。词汇覆盖率有两种算法,其使用目的也不同。
①材料词汇覆盖率:用于教材可读性或难度的评估,即不同教学阶段选择适合的教学词汇表(如小学词汇表、初中词汇表、高中或大学词汇表)进行教材的词汇覆盖率测定,判断教材的适用性。计算公式:
材料词汇覆盖率=(材料中词汇表所包含词汇数/材料词汇数)×100%
②词表词汇覆盖率:用于试卷知识点的评估,即将词汇表中词汇作为知识点,测定考试试卷的词汇知识点覆盖率。计算公式:
词汇表词汇覆盖率=(材料中词汇表所包含词汇数/词汇表词汇数)×100%
词汇覆盖率测试操作是先将自己的教学词汇表导入软件,创建自定义词汇库文件(图3),然后进行材料的词汇覆盖率测定。
6)词频数据,指某一词汇在材料中出现的次数(又叫频数),对材料中的词汇做词频统计、计算重复率并按一定规则列出称词频表(图4),词频表可以方便地观察词汇使用状况。
7)词汇分级:按词汇的难度对应教学阶段进行词汇分级,如小学、初中、高中……形成系列分级词汇。对材料做词汇分级测定在教材编写和试卷分析中都有实用价值,可以窥视其词汇分布的细微变化(见图2)。
8)词汇表:把材料中词汇转换成原型,按首字母顺序列出,称词汇表。词汇表为研究者审核词汇提供了便利。
4 其他功能
“英语词汇分析工具”功能非常丰富,如自身知识库的修改完善、简易语料库的建设、联网交流等。此处仅介绍两个亦属于数据采集的功能,即人名地名搜索和新词汇的收集整理,尽管它们一般不用于数据分析。
关键词 英语词汇;英语词汇分析工具;数据采集
中图分类号:H319.3 文献标识码:B
文章编号:1671-489X(2017)08-0027-04
Abstract Recently there has been a fairly great rapid development in
the data analysis for the English vocabulary. The data collection serves as the basis for the vocabulary data analysis. The present paper
will give an introduction to the collection of vocabulary data, inclu-
ding the collection scope, the data kinds and the relative correspon-ding qualities by using the special software An Analysis Tool for the English Vocabulary.
Key words English vocabulary; an analysis tool for the English vocabulary; data collection
1 引言
英語语言研究中词汇研究占有重要位置。利用维普期刊资源整合服务平台[1]对国内1989—2016年期刊发表的文献进行关键词检索,英语研究类文献中词汇研究文献多达22 600篇。其中英语词汇数据研究文献1989—1998年仅为4篇,1999—2008年增至8篇,2009—2016年则达到25篇,显示出词汇数据分析研究领域发展很快。随着新技术不断地引入和更多研究人员的参与,未来英语词汇的数据研究必将成为新的热点,将在语言研究中发挥重要作用。英语词汇数据研究是基于对词汇特征数据的分析,往往材料本身词汇数量庞大、变化形式繁多,手工采集数据极其困难。本文简单介绍利用“英语词汇分析工具”软件采集英语文本中的词汇数据。
2 软件概貌
“英语词汇分析工具”软件是由南通大学李冬编制[2],软件可以在各类Windows操作平台安装、运行,操作界面简单友好(见图1、图2),帮助文件完整,一般不需专门学习就能操作使用。数据采集操作过程包括导入纯文本文件格式的英语文本材料、设置采集目标模式、运行程序完成数据采集和生成对应的数据文件。数据文件存放在指定的文件夹内,采用TXT纯文本文件格式,需要标色显示的数据文件则为HTML文件格式。
3 常用数据采集
英语词汇的数据研究依研究目标确定与其相关联的特征数据作为研究基础,采集数据,然后进行直观比较、数学分析,获得科学结论。“英语词汇分析工具”可以采集文本中下列词汇特征数据。
1)形符,又称词符、总词汇量,指材料中所有出现过的单词,包括重复出现的单词,它是观察材料篇幅大小的直观数据。
2)类符,又称词型,指材料中不重复出现的单词(仅字母排列形式不同,如look、looking、looked可看作三个类符),所以可看作不重复的形符,如在教材研究[3]和试卷研究[4]中形符、类符数据的统计。
3)词汇:以原型词为区分标准做统计,排除了如名词的单/复数、动词的时态、形容词的比较级等变化形式干扰。
4)词汇密度:衡量单位文章信息含量的尺度,反映语篇难易程度的数据[5]。计算采用类符/形符比值(英文缩写为TTR),计算公式:
TTR=(类符数/形符数)×100%
5)词汇覆盖率:用词汇做计数单位,以某个词汇表作为测量尺度,统计文章中词汇在词汇表中数量的占比,依此判断文章与词汇表的关系程度。词汇覆盖率有两种算法,其使用目的也不同。
①材料词汇覆盖率:用于教材可读性或难度的评估,即不同教学阶段选择适合的教学词汇表(如小学词汇表、初中词汇表、高中或大学词汇表)进行教材的词汇覆盖率测定,判断教材的适用性。计算公式:
材料词汇覆盖率=(材料中词汇表所包含词汇数/材料词汇数)×100%
②词表词汇覆盖率:用于试卷知识点的评估,即将词汇表中词汇作为知识点,测定考试试卷的词汇知识点覆盖率。计算公式:
词汇表词汇覆盖率=(材料中词汇表所包含词汇数/词汇表词汇数)×100%
词汇覆盖率测试操作是先将自己的教学词汇表导入软件,创建自定义词汇库文件(图3),然后进行材料的词汇覆盖率测定。
6)词频数据,指某一词汇在材料中出现的次数(又叫频数),对材料中的词汇做词频统计、计算重复率并按一定规则列出称词频表(图4),词频表可以方便地观察词汇使用状况。
7)词汇分级:按词汇的难度对应教学阶段进行词汇分级,如小学、初中、高中……形成系列分级词汇。对材料做词汇分级测定在教材编写和试卷分析中都有实用价值,可以窥视其词汇分布的细微变化(见图2)。
8)词汇表:把材料中词汇转换成原型,按首字母顺序列出,称词汇表。词汇表为研究者审核词汇提供了便利。
4 其他功能
“英语词汇分析工具”功能非常丰富,如自身知识库的修改完善、简易语料库的建设、联网交流等。此处仅介绍两个亦属于数据采集的功能,即人名地名搜索和新词汇的收集整理,尽管它们一般不用于数据分析。