基于词频分布的齐夫定律朝鲜语适用性研究

来源 :小说月刊 | 被引量 : 0次 | 上传用户:yanglsm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文主要通过对朝鲜语文本语料的词频统计和分析,列出词频统计表,绘出齐夫对数分布曲线,并与齐夫定律的分布曲线相比较,判断出吻合度,对齐夫定律进行朝鲜语适用性的验证研究。
  关键词:词频;排序;齐夫定律;朝鲜语适用性
  1 词频的定义与发展
  (1)表达意义的基本原子单位是词。例如house一词使人脑海里浮现一幅景象:一幢有房顶的长方形建筑。当house一词出现在一篇文本中时,读者便会依据其上下文去联想“房子”的意象。所谓词频是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  (2)词语频次的观念古已有之。1898年,德国语言学家凯定在5000名速记人员和800名合作者的帮助下,手工统计了以报刊为主的14个语料来源的资料,所统计的总词汇量达10,910,777条,而其中频次在4以上的词共有79716个。这些统计结果被编纂成了世界上第一部频率词典“Haufigkeits Worter buch der Deutschen Sprache”(《德语频率词典》),这也被普遍认为是第一次现代意义上的以统计调查方法完成的词汇研究工作。美国教育学家与心理学家桑代克先后于1921年和1944年编写了《教师二万词词书》和《教师三万词词书》,对英语的词汇作了大量的频率统计工作①。我国在1930年王文新对包括三种版本的国语教科书等在内的共910417字的语料进行了统计和分析,首先把词语分为单词单音词和复词复音词两种,并分别统计了这两种词语所出现的频次及其各自所占的比率。统计结果,复词出现的词次为214,558词次,复词总词数为6411个,复词中频次最高的词出现的频次为3513次,最低的为1次②。
  2 齐夫定律概述
  (1)美国哈佛大学教授乔治·金斯利·齐夫通过研究词语频次与词语等级之间的关系,揭示了词频现象的内在形式化规律。在1935年齐夫在艾思杜、贡东、朱斯等学者研究的基础上通过对文献词频规律的研究,认为:若把一篇较长的文章中每个词出现的频次从高到低进行递减排列,即频率最高的词序号为1,频率次之的词序号为2,以此类推。每个单词的序号r与其使用频次f的乘积接近为一常量c。即r×f=c如果用横坐标表示词序号r,纵坐标表示相应的频次f,就可以得到一条双曲线,即齐夫分布曲线;如果公式r×f=c写成logf=logc-logr,就得到了使用频次的对数和序号之间的线性关系,即为齐夫分布对数曲线,图像接近与一条直线。
  (2)英国语言学家哈特曼和斯托克对齐夫定律的解释则是“齐夫定律是词的分布和频率的总描述f×r=c,其中f为频率,r为序号。之后齐夫得出了c的值为0.1,因而认为是一个常数。但后来经过验证发现c值有波动的范围,在0到0.1之间。
  3 齐夫定律的朝鲜语适用性研究
  本文的统计样本语料为十九大报告韩文版中的最前面两个段落。统计手段为人工分词,辅以计算机计数。分词时所依据的原则是:根据朝鲜语自身的语言特点,以齐夫定律理论为基础,以保留词语语义的完整性为前提。此段语料共有2084个单词,其中汉字词有1382个,固有词有702个。



  通过上述的词频统计表和齐夫对数分布曲线可以看出,除了排名5以下的低频词外,频次f与词级r的乘积均比较平稳,基本围绕着一个常数上下波动,齐夫对数分布曲线也大致呈现出直线的趋势,可见统计结果中的词频分布呈现出较为明显的齐夫分布规律。结果表明如果除去少数出现频率少的词语,朝鲜语文本完全地符合齐夫定律,齐夫定律同样适用于朝鲜语。
  注释:
  ① 冯志伟.齐普夫定律的来龙去脉[J].情报科学,1983
  ② 王文新.小学分级词汇研究[J].教育研究.国立中山大学教育学研究所,1922,31.
  参考文献:
  [1] 許文霞.齐普夫定律的实践和理论基础[J].图书馆建设,1984,(1).
  [2] 邓洛华.词频分析[J].武汉大学学报(人文科学版),1987,(1).
  [3] 沈关龙.齐普夫定律与专题文献标题词频的研究与应用[J].情报理论与实践,1988,(2).
  [4] 十九大报告全文.延边日报[N].2017
其他文献
摘 要:隐喻是人们日常生活中很普遍的现象。莱考夫和约翰将概念隐喻分为:结构隐喻,方位隐喻和实体隐喻。笔者拟从源域、目标域、映射的方法探讨三类隐喻框架下的商业广告。通过分析,笔者发现商业广告的概念隐喻能提高产品的销售功能。  关键词:商业广告;概念隐喻;结构隐喻;方位隐喻;本体隐喻  1 引言  隐喻最早被视为一种修辞格而走入学者研究的视线。直到1980年,莱考夫和约翰逊出版《我们赖以生存的隐喻》一
期刊
摘 要:英汉两种语言之间存在的巨大差异给英语学习造成了一定的困难,所以我们需要寻找相对便捷的学习方法。其中,最常用的学习方法之一就是对比。英汉对比有多种角度,其中词汇对比一直热度不减。形容词在英汉语中虽都属实词类,但其用法等方面却存在诸多极大区别,且很大部分都会给英语学习者和英语教育者带来一些障碍。所以,本文着重选取英汉语言中的形容词进行某些方面的对比,希望能够借此引起大家对于英汉语中形容词的异同
期刊
摘 要:本文将从经贸翻译中英汉翻译方面来简要探讨英语词汇的特点,由于经贸翻译涉及的领域非常广泛,包括金融、投资、保险、财会、经营管理、市场营销、信息处理、对外经贸合同和法律文书等,涉及到权利和义务的方方面面,经贸英语语言严谨,语法结构复杂,不允许有半点纰漏。因此准确理解原文英语词汇的特点,熟悉英语词汇特点,从而更好地了解专业知识经贸英语的用法和日常用法不大相同,我们平常所熟悉的普通名词在经贸英语中
期刊
摘 要:汉语和马达加斯加语分属汉藏语系和南岛语系,语言特点上存在很大的差异。汉语的基本语序是SVO,而马语的基本语序是VOS。两种语言的基本语序不相同,两种语言中充当定语的语法成分又有哪些异同?本文将能充当马达加斯加语定语的六种成分分别和汉语进行对比,得出两种语言定语成分的异同。  关键词:汉语;马达加斯加语;定语  现代汉语本体研究中,关于定语的研究论著十分丰富。丁声树、吕叔湘(1961)朱德熙
期刊
摘 要:随着经济全球化及世界一体化进程的不断推进,各国间各领域的交流也在不断扩大和加深。作为文化的重要组成部分,广告越来越受到各国学者的重视,为此本文拟以美国人类学家爱德华·霍尔(Edward T.Hall)的高低语境理论为基础对中美广告语言进行对比研究,以期更好地把握不同文化环境下的广告语表达方式,顺利实现跨文化交流。  关键词:高低语境;中英文广告;跨文化交际  1 引言  随着人们生活水平和
期刊
摘 要:随着人类社会文明的快速发展,语言中的性别歧视现象引起了社会语言学家和心理学家的广泛关注。语言中的性别歧视问题是一个社会问题,消除语言中性别歧视现象的关键在于去除性别歧视观念,承认女性的平等地位。作为全球使用范围最广的英语也不可避免该现象的出现。本文专门就英语语言中的性别歧视现象做了较为全面的梳理,以此引起英语习得者们的关注。  关键词:英语语言;女性;现象  1 引言  语言作为人类社会的
期刊
摘 要:宋词的研究大多从文学的角度出发,分析作品的意境或是词人的创作手法等;而从词汇系统出发进行研究的很少。本文以《全宋词》为依据,力图从词汇学的角度,主要是从词义整合角度来分析宋词中的含彩词。含彩词在宋词中的运用非常丰富,特别是作为正色之一的黄色,承载了许多颜色之外的语义内涵和功能。  关键词:宋词;含彩词;黄;隐喻;转喻  1 含彩词  含彩词是从语义聚合的角度划分出来的语词类聚,是指语言中那
期刊
摘 要:王寅,字仲房,号十岳,是晚明时期颇具特色的散曲作家,他的散曲作品中饱含着儒家入世情怀和道家出世思想的双重体验,本文以此类作品为研究对象,探讨其散曲的叹世隐逸内涵。  关键词:王寅;散曲;叹世;隐逸  王寅是晚明时期颇具特色的散曲作家,他的一生极富传奇色彩年少时慕古名流,好结任侠之客,但也和当时的士人一样,希望科举入仕,能够让自己的才干得以施展,满腹诗书不至于消磨在平庸的生活中,但没想到的是
期刊
摘 要:本研究从历时性角度分析中国文学作品的外译策略发展历程,对策略选择的原因进行历史解读。研究显示:中国文学作品外译策略选择是不断变化发展的,在不同时期,外译策略展现出不同的倾向和程度,译者的文化态势起到决定性的作用。  关键词:文学外译策略;发展研究;文化态势  1 引言  自17世纪译介中国文学以降,基于外译策略发展的研究还未形成系统。在中国文化“走出去”战略和“一带一路”的局势下,更加有必
期刊
摘 要:本文意在对襄垣方言人称代词的用法进行全面细致地描写,发现襄垣方言人称代词的特点,以期为襄垣方言语法研究提供一些有价值的语料。襄垣方言复数人称代词用法复杂,并存在叠床架屋、不规则、多套复数形式兼用并行的特点,值得我们进一步研究。  关键词:襄垣方言;人称代词;复数;特点  1 引言  襄垣县位于山西省东南部,太行山西麓,上党盆地之北,是长治市的一个县,地处东经112°42′~113°14′,
期刊