论文部分内容阅读
本文以语料库本身为研究对象,以语言学理论为基础,以计算机软件工程和数据库的思想为指导,结合其他学科领域的理论和方法,在总结前人提出的各种有关语料库建设的理论、方法的基础上,紧密结合语料库开发的具体实例,全面、系统地研究了与语料库建设有关的理论与实践问题,讨论了如何为语言学研究的需要,建设语料库。 语料库是为某一个或多个应用而专门收集的、有一定结构的、有代表性的、可以被计算机程序检索的、具有一定规模的语料的集合。 语料库系统是以语料库为核心、包括计算机硬件、软件、语料库用户、语料采集和加工规则、语料库管理和应用程序的一个完整系统,其各部分互相影响、互相制约,共同决定语料库的质量、价值、应用水平。语料库系统这一概念的提出,有助于语料库建设时综合考虑有关的各方面的问题,形成一个有机的整体,从而提高语料库的质量和开发效率。 大型语料库的开发是一项软件工程,开发过程应遵循软件工程的一般原则和方法,但又要考虑自身的特点,故可以称为“语料库工程”。语料库工程的生命周期可以划分为7个阶段:语料库规划阶段、需求分析阶段、语料库设计阶段、语料采集阶段、语料库实现阶段、语料库标注阶段、语料库使用和维护阶段。 大型平衡语料库具有语料真实性、样本有限性、语料库代表性、库结构的平衡性等特点。语料真实性是语料库的立足之本,样本有限性是语料库不可回避的问题,代表性是语料库追求的目标,库结构的平衡性是达到目标的手段。 语料流是因特网上某一个或某几个站点源源不断产生的所有言语。当它流经监控程序时,监控程序获取可能需要的信息并保存起来,供后继的相关研究使用。可以根据需要,决定语料流中的语料是否需要长期保存。语料流的这一工作机制与人的大脑学习新知识、发现新知识的原理非常相似。基于语料流的监控语料库的建设,对于语言新现象的发现、报告有实际应用价值。 语料库的规范化是实现语料库的共享,减少语料库重复开发的关键;语料库的元数据规范化是语料库规范化工作中比较容易实现的一步,可以率先执行。语料库的元数据项可以分为六大类:语料知识版权信息、语料创建者背景信息、语料载体发行信息、语料内容信息、语料采集信息、语料库管理信息。 语料库标注的7条一般原则是:原始语料和标记符号的数据独立性原则、语料库的公开性原则、语料标注的通用性原则、语料标注的折衷性原则、语料标注的一致性原则、标注符号的确定性原则、用户知情权原则。 语料库标注过程中应该处理好以下几个关系:详细标注和简单标注的关系、通用性和专用性的关系、原则性和灵活性的关系、绝对性和模糊性的关系。 HNC理论建立了概念语义网络,可以用来描述词汇的语义,描述词汇之间的概念联想脉络。研究HNC概念表达式的形式化定义,旨在为语料库的自动语义标注建立语义知识表示体系,实现语义标注附码的形式化,实现语义的可计算性。 语料库应用工具软件的开发,能大力促进基于语料库的语言学研究,是语料库研究的一个重要内容,应该重视这方面的研究。