语言形式化原理

被引量 : 2次 | 上传用户:menxiaolong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文主要从语言学和计算机科学的视角,探讨语言形式化的一般原理和方法。除绪论外,论文的主体还包括语音形式化、语义形式化、语法形式化、语用修辞形式化、文字形式化等,共六章。各章的主要内容及观点归纳如下:第一章绪论重点探讨语言形式与意义的关系问题,指出形式联系意义既是语言学研究的根本原则,也是语言形式化研究的根本原则,它是贯穿全文的指导思想。本章还探讨了形式化研究的学科支持、其在语言学体系中的地位和作用,以及语言形式化的层次和基本架构等。第二章为语音形式化。首先探讨语音的三种属性及其内在联系,这是语音形式化的基础,也是设计各种语音编码方案及压缩方案的重要参考。语音形式化的基本过程是采样、量化、编码;利用语音属性的不同特点,可以采取不均匀量化、差分量化、矢量量化、频域波形编码、参数编码等手段,以提高语音形式化的效率和质量。本章还分别探讨了语音压缩、语音合成的自然度以及语音识别的概率模型等问题。第三章语义形式化是全文的重点。首先探讨符号主义范式的基本架构及工具,包括图灵机、有限状态自动机、正则表达式等;以及基于符号主义的几种代表性的语义形式化方法,包括义素分析、逻辑语义分析、语义格分析、词性分析等;这些形式化方法的效果都不理想,其根本原因在于忽视语义系统无限性这一本质属性,而任何对语义系统的有限化改写都将造成语义缺失,破坏其完整性,最终导致失败。与此相对,联结主义从人的自然生理结构出发,把人脑看成由众多节点联结而成的开放式关系网络,具有并行处理、容错、自学习、遗忘、规则浮现等特征,这与人脑中的概念网络结构十分相似,是词汇语义形式化的理想模型。计算机语言作为典型的符号主义描写工具,伴随其智能化处理能力的严重不足,业已表现出明显的联结主义转向。模糊性是语义形式化的另一基本问题。语言的模糊性非源于语言单位的有限性,也非源于客观世界的模糊性,它源于人脑对客观世界的认知方式,其中比较和概念化过程是模糊性产生的关键节点,而模糊性的产生反又促进了人脑认知效率的大幅提升。符号主义范式对语义进行有限化改写的过程中所摒弃主要内容正是模糊性,而联结主义范式可以实现对语义清晰与模糊的全覆盖。第四章讨论语法形式化。概念意义是明示的、开放的,语法意义是暗示的、封闭的,概念意义抽象为语法意义的过程,就是从明示的到暗示、从无限到有限的过程,它受到语言发展经济规律的制约。概念关系是多维的、普遍联系的,从深层概念结构到表层句法结构,是一个降维的线性化过程,语法就是作为多维信息损失的补偿机制而产生的。语法单位的有限性决定了其较词汇语义更易于形式化,符号主义范式可以胜任这一工作。本章还讨论了语法形式化的一些具体问题和难点,包括上下文无关语法及N元语法、词类划分、汉语的分词及词性标注等。最后作为示例探讨了“把”字结构,指出其句型意义为“不同类个体之间竞争关系的表达”,在此基础上给出其句法结构的语义构成,包括优势竞争者、劣势竞争者、竞争方式、竞争结果四项。第五章探讨语用修辞形式化,其基础是语境的形式化,包括参与者信息、客观环境、上下文、语言知识、常识性知识、社会文化背景知识等六类。基于实用性考虑,形式语境的构成不再区分语言性和知识性,而是影响意义表达和意义理解的一切因素的总和。本章用C++程序构建了一个基本的语境类,并讨论了该语境类在具体言语交际中的运作模式,虽然很不完善,却是一次全新的尝试。本章还讨论了一类特殊的修辞格——通感。通感既是五种感觉之间的相通,同时也是内省的情绪、情感之间的交融。通感与比喻、比拟等传统辞格具有相同的认知心理基础,都是处在心智连续统上的不同区域间的彼此联通,因此可以把它们共同纳入广义的通感范畴。心智连续统是辞格形式化的重要参考模型。最后一章是文字形式化。首先探讨文字的信息量——熵的概念,指出汉字的诸多特点包括字形复杂、数量庞大、区别度高、信息量大等,都与其高熵值密切相关。进一步观察,还可以发现隐藏在信息熵之下的语言共性,而词汇概念体系的复杂程度是衡量一种语言发达程度的根本标准。第二部分阐述文字形式化的具体内容,主要围绕文字的内码、外码和形码展开,包括各种主要的形式化方案和各自的优缺点。最后探讨文字识别的基本原理及实现。
其他文献
高校档案馆因人员构成等限制对于微博等新兴事物的接受和运用相对滞后,微博在辅助档案工作中的作用也相对有限,各档案馆需通过明确功能定位、落实工作规范、提升博文质量并辅
股票回购,是上市公司利用盈余所得的积累资金或债务融资以一定的价格和按一定的比例购回公司本身已经发行在外的普通股,将购回的普通股作为库藏股或进行注销以达到减资或调整
教学资源是远程开放教育的重要支柱及核心所在,推动远程开放教育教学资源的整合与共享,提高其应用效益,是当前远程开放教育发展的世界趋势。基于此,在明确教学资源内涵及意义的前
时下,通过计算机对文字、图片、影像、动画、声音等信息进行处理,开展视听一体的形象化的多媒体教学,在中学语文教学领域如火如荼展开。然而,只要对语文多媒体课堂教学稍加留
江苏“特色高水平”高职院建设全面开展,作为全国高职教育的领跑者,江苏特高院校成为具有地域特色的“苏派职教”理论的典型代表,其职教实践不仅为苏派职教理论建设提供了鲜
我国信用卡业务的制度所存在的问题主要表现在银行对持卡人拖欠透支款在管理上没有有效的催收措施、个人信用制度及破产制度、信用卡担保制度及统一的消费信贷方面的法律、法
当前,越来越多的企业把成为中国五百强或者世界五百强作为企业发展的目标,企业要做大做强,组织集团化是企业走向产业扩张的必经之路,而业务多元化是企业迅速壮大的重要途径。
自改革开放以来,我国在快速工业化与城市化进程中,出现了城镇用地粗放增长、生态环境和自然资源的破坏和滥用、城市环境恶化、城市灾害频发等诸多问题。国家、建设部针对这些问
在城市化进程快速发展的今天,城中村的改造成为这一阶段城市发展面临的重要问题。城市范围的扩大使得越来越多的城中村出现,如何将城中村很好的布局规划是政府与规划师共同面临
全球每个国家对外直接投资的流入和流出成了全球经济分工的重要特征。金融危机后,发达国家经济复苏缓慢,新兴国家市场内需持续增长,投资增速,新兴国家、发展中国家在全球经济