一种基于齐普夫定律的识别语料中高低词频分界点的新方法及其应用

被引量 : 14次 | 上传用户:airising
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
确定分析语料中的高频词是进行科学计量研究的基础性工作,高频词的数量直接影响研究结果。虽然目前科学计量学在各个学科得到了广泛的应用,成果众多,但是对于确定语料中分析所用的高频词方面还缺乏客观科学的方法。大部分研究者用的是主观判断法,还有学者用h指数法或者g指数法。这些方法都缺乏理论依据。Pao和Sun根据齐普夫第二定律推导出了一种识别语料中高低词频的方法,这两种方法虽然有齐普夫定律作为理论依据,但是在应用过程中所依据的“同频词理论”却是作者未经观察和验证的主观判断,缺乏依据,值得怀疑。另外上述几种方法在实际应用的过程中效果都不理想,所得到的高频词要么太多要么太少,年际之间差距太大,不稳定,难以应用。齐普夫定律是科学计量学中的一条基本定律,尽管现有研究者针对齐普夫定律开展诸多方面的研究,但齐普夫定律中的一个关键问题---常数C却并没有形成清晰一致的认识。本研究选择科学计量学和环境污染修复学这两个作者都比较熟悉但是学科性质差异很大的两个学科十年间发表的论文为分析语料。通过分析科学计量学语料各年份的词频分布和应用齐普夫定律确定C值,发现了C值的一些变化规律,并由此提出一种新的识别语料中高低词频分界点的新方法。通过科学计量学和环境污染修复学两个学科的语料的验证,证明新方法相比于已有的方法,具有明显的科学性和普适性,值得推广应用。本研究进而在这两个学科中应用了新方法,得到了这两个学科十年间的发展脉络,进一步验证了新方法的先进性和适用性。本研究的主要结论为:一、在具体的一篇语料中,C值是一随语料规模变化而变化的参数。这一发展验证了齐普夫关于C值是一个参数的判断,但是也否定了齐普夫关于0<C<0.1的推断。通过验证表明参数C值受语料中词汇量和词频分布的影响,呈现波动上升的趋势,其取值范围没有明显的规律。二、本研究所确立的新的识别语料中高低词频分界点的新方法相对于其他方法在识别高频词方面有数量和稳定性两方面的明显优势,不受语料规模及语料性质的控制。通过两个不同的学科构成的不同性质的语料的检验发现该方法具有普适性,不但适用于由题目和关键词等信息组成的连续文本中高频词的识别,也适用于由关键词构成的不连续的文本中的高频词识别,而“Pao法”和“Sun法”只适用于连续文本中高频词的识别。总之,相对于已有的方法,本研究所创建的方法在识别语料中高低词频分界点方面的优势较明显,值得推广。三、将新方法应用于科学计量学,发现科学计量研究领域已形成一系列成熟、稳定的研究议题。包括引文分析、期刊评价、科研产出评价、学科评价等等。计量指标伴随着评价而生,并成为科学计量学的研究热点,早期的研究热点是影响因子,后期的热点是h指数、g指数等新指标,使这一领域的研究正在走向深化。四、将新方法应用于环境污染修复学,发现在环境污染修复的研究中,土壤是主要的研究介质,重金属和多环芳烃是重要的研究污染物,植物修复、生物修复、电动修复是主要的修复技术。随着经济和检测技术的发展,新型的污染物不断产生和被发现,或者已有的污染物的潜在危害性逐渐被人们所重视,驱使研究者不断改进修复治理技术来应对新的污染物。同时,污染修复技术也在持续发展,表现为多种修复技术的结合以及修复材料的不断创新。新污染物和新修复方法的不断涌现使得环境污染修复学的研究既有重要的实践意义,又历久弥新。本研究还根据研究结果对我国的环境污染修复研究提出了建议。本研究的主要创新点体现在:一、本研究重新定义了语料中高频词的群体特征,为高频词确定方法提供了一种新思路,拓展了齐普夫定律的应用范围,可为相关研究提供借鉴。二、经过验证,相对于已有的方法,本研究所提出的识别语料中高低词频分界点的新方法具有明显的优越性,可为广大科学计量研究者所借鉴。科学计量学需要一种统一的科学的客观的方法来规范研究数据,本研究所创造的方法则较好的满足了这种需要。如果该方法能够被广大研究者所接收并推广,那么会对科学计量学产生较大的影响,无疑会规范文献计量学的应用,并推动科学计量学在更广的范围内应用。三、本研究从科学计量的角度对环境污染修复学的研究成果进行了系统分析,研究结果对我国即将开展的大规模环境修复项目的实施提供了有价值的参考。
其他文献
班主任在中途接班工作中要有科学的管理方法,要给学生以真挚的爱,要培养学生干部,并且自己要不断的学习。
公安高校学生党建与廉洁从警教育是相辅相成、相互促进、共同发展的。二者在教育目标、教育功能、教育内容上都具有内在统一性。然而,在实际工作中,二者往往被孤立开来。各自
近年来,大学生就业压力,逐渐成为当代大学生压力的主要来源。本文通过对大学生就业压力调查,研究了解大学生就业压力产生的原因,同时介绍大学生就业心理压力宣泄对策。
作为“世界加工厂”,我国排放的CO2很大一部分是隐含在出口产品中由国外消费的,了解我国出口隐含碳排放增长的影响因素对于制定合理的气候政策具有重要意义。本文采用投入产出
村上春树是世界知名的作家。随着村上作品在中国的盛行,各种译本也随之诞生,同时也成为了学者们的研究目标。在中国最为人知的译者当属大陆的林少华与台湾的赖明珠。村上春树
双导制是近年来普通本科院校探索的应用型人才的一种人才培养模式,文章在结合民办本科院校的办学目标、人才培养模式和学生自身特点的基础上,通过文献调研法、访谈法和对比法
在调研中发现模具行业的厂家急需不依赖于加工者技术水平并且加工效率高的新型抛光设备,尤其在注塑模具中,模具内腔表面质量的抛光是模具加工中的瓶颈。超声抛光技术是一种有效
闭式静压气浮导轨,以气体为润滑剂支撑的导轨,具有高承载力、高刚度、无摩擦、高速度、高精度、无污染等优点,在精密机械中得到广泛的应用。直接驱动进给技术将输出的力直接
随着全球化的深入发展,会议口译市场越来越大,对于会议口译的研究也越来越深入和专业。从各种文献资料中我们可以发现,会议口译的类型、口译员自我学习和口译质量控制方面的研究
智能电网以实现更加可靠、更加安全、更加经济和更加高效的电网为目标,为电网实现监控、自愈、信息采集和供需平衡的智能化。发展智能电网的需求已变得越来越迫切,一方面通信