论文部分内容阅读
摘要:中文信息处理是一个未来具有广阔前景的科研领域。从中文信息处理的研究内容、主流技术等几个方面浅谈了对计算机中文信息处理的认识。
关键词:中文信息处理;语料库;词性标注
中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)09-11709-03
Of Chinese Information Processing
LI Ying
(College of Information Engineering, Xingjiang University, Wulumuqi 830046, China)
Abstract: Chinese information processing will be one has the broad prospects scientific research domain in the future. From Chinese information processing’s research content, the mainstream technology and so on several aspects discussed shallowly to the computer Chinese information processing understanding.
Key words: Chinese Information Processing;Corpus; Part-of-speech tagging
中文信息处理是中文(包括汉语和少数民族语言)语言学和信息技术的融合。指用计算机对中文的音、形、义等信息进行加工和处理,它是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。
语言信息处理是用计算机对自然语言在各个层次(语素、词、短语、句子、段落、篇章)上的各种表现形式(文本、声音、图像)的信息进行处理:输入、输出、转换、压缩、存储和检索等等。跟人工语言相比,自然语言词汇量大,规则复杂,处处充满歧义,但它是人类最重要的交际工具,也是人类思维、文化和一切知识的载体,因此语言信息处理具有特别重大的意义。[1]
中文信息处理是用计算机处理汉语信息,也叫汉语信息处理。
1 中文信息处理的特点
中文信息处理在许多方面有自己的特点。
1.1 汉字的特殊性
西方语言只有几十个字母。而汉字由于数量大且字形复杂,也给计算机处理带来了困难。汉字信息处理是中文信息处理的关键和基础,包括汉字信息的输入、汉字信息的加工和汉字信息的输出等方面,其难点是汉字编码问题。根据在汉字信息处理过程中的不同要求,汉字有多种编码,主要可以分为四类,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。
1.2 书面汉语的特殊性
书面汉语中,词跟记号之间没有分隔标记,自动分词成为书面汉语分析的第一道难关。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。
1.3 汉语语音的特殊性
汉语语音的特点是音节结构简单,音节界限分明,但有声调和变调等问题,对于语音识别和语音合成来说,既有有利的一面,也有不利的一面。
1.4 汉语语法的特殊性
汉语形态贫乏,难以凭借形态来确定词的句法功能,词序和虚词是主要的语法手段,句法歧义特别复杂,使得汉语语句自动分析这一关键技术迟迟不能取得突破。
2 中文信息处理的研究内容
2.1 从用户角度看,中文信息处理不外乎三个方面
2.1.1 汉语信息的输入和输出
输入有三种形式:键盘输入、手写(或扫描)输入、语音输入,分别是汉字键盘输入法、汉字识别和汉语语音识别的研究内容。输出有两种形式:屏幕和打印机等设备上的汉字输出、语音输出,分别是汉字字形技术和汉语语音合成的研究内容。
2.1.2 汉语信息的检索和提取
给出主题词或关键字,得到相关文献或例句,这是信息检索。对文献内容加以分析概括并且以条理化的形式来表达,叫做信息提取,是中文信息处理研究的一个新热点。自动文摘和自动校对也可以看成是信息提取。
2.1.3 汉语信息的转换
如GB、B和Unicode等内码之间的转换,汉字简体和繁体之间的转换。汉语和其他语言之间的机器翻译,属于不同自然语言之间的转换,也是中文信息处理的重要研究内容。[2]
2.2 从研究者角度看,中文信息处理可分为三种研究类型
2.2.1 基础研究
包括汉字字符集的编码体系、中文信息处理的发展战略和基本方法、汉语计算模型、汉语语料和语言知识库的建设,等等。
2.2.2 应用基础研究
面向应用的基础性技术的研究,包括自动分词技术、词性标注和语义标注技术、语句分析技术、篇章分析技术等等。这些基础性技术不限于特定的应用目的,例如自动分词技术在信息检索和语音合成的预处理阶段、汉字识别和语音识别的后处理阶段都有重要的应用价值。
2.2.3 应用研究
实用系统的设计和研制,如汉字识别系统、汉语语音识别系统、中文全文检索系统、汉外机器翻译系统等等。[2]
3 中文信息处理的主流技术
语料库方法和统计语言模型不但没有过时,而且在可比的统一评测中被证明是当前各国语言信息处理的一种主流技术。
3.1 N元模型
设wi是文本中的任意一个词,如果已知它在该文本中的前两个词 wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:
P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn-1)
不难看出,为了预测词wn的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。 这时的语言模型叫做三元模型(tri-gram):
P(W)≈P(w1)P(w2|w1)∏i(i=3,...,n P(wi|wi-2w-1)
符号∏i i=3,...,n P(...) 表示概率的连乘。一般来说,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有
P(wi|wi-2wi-1) ≈ count(wi-2wi-1wi)/count(wi-2wi-1)
式中count(...) 表示一个特定词序列在整个语料库中出现的累计次数。[4]
3.2 语音识别
让人与计算机自由的交谈,机器能听懂人讲话,是语音识别技术的最终目标。语音识别技术所设计的领域包括:信号处理、模式识别、概率论和信息论、发声机原理和听觉原理、人工智能等。
语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术3个方面,另外还涉及到语音识别单元的选取。
关于语音识别单元的选取,对于大中型词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
关于特征参数提取技术,语音信号中含有丰富的信息,这些信息称为语音信号的声学特征。特征参数提取技术就是为了获得影响语音识别的重要信息,特征参数应该尽量多的反映语义信息,尽量减少说话人的个人信息。
关于模式匹配以及模型训练技术,模型训练是按照一定的准则,从大量已知的模式中获取表征该模式本质特征的模型参数。模式匹配是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。其实,语音识别任务可视为对以下条件概率极大值的计算问题:
W*= argmaxW P(W|speech signal)
= argmaxW P(speech signal|W) P(W)/P(speech signal)
= argmaxW P(speech signal|W) P(W)
式中数学符号argmaxW 表示对不同的候选词序列W计算条件概率P(W|speech signal)的值,从而使W*成为条件概率值最大的词序列。它也就是当前输入语音信号speech signal所对应的输出词串了。
公式第二行是利用贝叶斯定律转写的结果,因为条件概率P(speech signal|W)比较容易估值。公式的分母P(speech signa ) 对给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删除。在公式第三行所示的结果中,P(W)叫做统计语言模型;P(speech signal|W) 叫做声学模型。[4]
3.3 词性标注
用计算机软件标注文本中每个词的词性或义项。这两种标注都是多中选一的问题,关键是如何处理兼类词或多义词。词性标注为句法分析做铺垫,语义标注为词义结构分析打基础,关键是如何处理兼类词或多义词。词性标注为句法分析做铺垫,语义标注为语义结构分析打基础。跟西方语言相比,汉语词性标注的主要困难是缺乏形态,词类判定基础根据词的已实现的句法功能,对上下文的依赖特别严重。汉语的自动分词和词性标注的精确率,将直接影响到后续的句法分析结果。据观察,在汉语句法分析结果中,有高达60%的分析错误来源于分词和词性标注的错误。[3]
在英语的词库中约 14% 的词形(type)具有不只一个词性,而在一个语料库中,总词次数(tockens)中约 30% 是兼类词。从这个统计数字中可以估计出词性标注任务的难度。历史上曾经先后出现过两个方法迥异的英语词性标注系统:TAGGIT系统拥有3000条上下文相关规则,而CLAWS系统完全采用概率统计方法。两个系统各自完成了100万词次的英语语料库的自动词性标注任务。评则结果(见下表)表明,采用概率统计方法的CLAWS系统的标注精度达到96%,比TAGGIT系统提高了近20个百分点。经过改进的CLAWS系统日后承担了英国国家语料库BNC一亿条英语词的词性标注任务。
具体来说,CLAWS系统采用的是词类标记的二元模型。如果令 C = c1...cn 和 W = w1...wn 分别代表词类标记序列和词序列,则词性标注任务可视为在已知词序列W的情况下,计算如下条件概率极大值的问题:
C*= argmaxC P(C|W)
= argmaxC P(W|C)P(C)/P(W)
≈ argmaxC ∏ii=1,...,nP(wi|ci)P(ci|ci-1)
P(C|W)表示:已知输入词序列W的情况下,出现词类标记序列C的条件概率。数学符号argmaxC表示通过考察不同的候选词类标记序列C, 来寻找使条件概率P(C|W)取最大值的那个词序列W*。后者应当就是对W的词性标注结果。
公式第二行是利用贝叶斯定律转写的结果,由于分母P(W)对给定的W是一个常数,不影响极大值的计算,故可以从公式中删除。接着对公式进行近似。首先,引入独立性假设,认为词序列中的任意一个词wi的出现概率近似,只同当前词的词性标记ci有关,而与周围(上下文)的词类标记无关。即词汇概率
P(W|C) ≈ ∏ii=1,...,nP(wi|ci)
其次,采用二元假设,即近似认为任意词类标记 ci的出现概率只同它紧邻的前一个词类标记ci-1有关。因此有:
P(C) ≈∏i i=,...,nP(ci|ci-1)
P(ci|ci-1)是词类标记的转移概率,也叫做二元模型。
上述这两个概率参数也都可以通过带词性标记的语料库来分别估计:
P(wi|ci) ≈ count(wi,ci)/count(ci)
P(ci|ci-1) ≈ count(ci-1ci)/count(ci-1)
4 结束语
随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段。实际上,人们在生产生活中、社会在运转过程中已经高度依赖于中文信息处理。特别是在互联网技术迅猛发展的今天,信息技术的应用已经渗透到了社会的各个角落之中。这种渗透已不仅仅是最初的互联网本身,还包括了移动电话、掌上电脑、电视机顶盒等产品的互联网接人。在我国,所有这些应用都离不开中文信息处理,中文信息处理技术已成为我国信息技术研究、发展、应用和产业的基础。
参考文献:
[1] 曹邦伟,高传善.计算机与信息处理[M].上海:复旦大学出版社,2001.
[2] 陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002,1.
[3] 冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,1.
[4] 黄昌宁.中文信息处理的主流技术是什么?[J].计算机世界报,2002,(24).
关键词:中文信息处理;语料库;词性标注
中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)09-11709-03
Of Chinese Information Processing
LI Ying
(College of Information Engineering, Xingjiang University, Wulumuqi 830046, China)
Abstract: Chinese information processing will be one has the broad prospects scientific research domain in the future. From Chinese information processing’s research content, the mainstream technology and so on several aspects discussed shallowly to the computer Chinese information processing understanding.
Key words: Chinese Information Processing;Corpus; Part-of-speech tagging
中文信息处理是中文(包括汉语和少数民族语言)语言学和信息技术的融合。指用计算机对中文的音、形、义等信息进行加工和处理,它是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。
语言信息处理是用计算机对自然语言在各个层次(语素、词、短语、句子、段落、篇章)上的各种表现形式(文本、声音、图像)的信息进行处理:输入、输出、转换、压缩、存储和检索等等。跟人工语言相比,自然语言词汇量大,规则复杂,处处充满歧义,但它是人类最重要的交际工具,也是人类思维、文化和一切知识的载体,因此语言信息处理具有特别重大的意义。[1]
中文信息处理是用计算机处理汉语信息,也叫汉语信息处理。
1 中文信息处理的特点
中文信息处理在许多方面有自己的特点。
1.1 汉字的特殊性
西方语言只有几十个字母。而汉字由于数量大且字形复杂,也给计算机处理带来了困难。汉字信息处理是中文信息处理的关键和基础,包括汉字信息的输入、汉字信息的加工和汉字信息的输出等方面,其难点是汉字编码问题。根据在汉字信息处理过程中的不同要求,汉字有多种编码,主要可以分为四类,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。
1.2 书面汉语的特殊性
书面汉语中,词跟记号之间没有分隔标记,自动分词成为书面汉语分析的第一道难关。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。
1.3 汉语语音的特殊性
汉语语音的特点是音节结构简单,音节界限分明,但有声调和变调等问题,对于语音识别和语音合成来说,既有有利的一面,也有不利的一面。
1.4 汉语语法的特殊性
汉语形态贫乏,难以凭借形态来确定词的句法功能,词序和虚词是主要的语法手段,句法歧义特别复杂,使得汉语语句自动分析这一关键技术迟迟不能取得突破。
2 中文信息处理的研究内容
2.1 从用户角度看,中文信息处理不外乎三个方面
2.1.1 汉语信息的输入和输出
输入有三种形式:键盘输入、手写(或扫描)输入、语音输入,分别是汉字键盘输入法、汉字识别和汉语语音识别的研究内容。输出有两种形式:屏幕和打印机等设备上的汉字输出、语音输出,分别是汉字字形技术和汉语语音合成的研究内容。
2.1.2 汉语信息的检索和提取
给出主题词或关键字,得到相关文献或例句,这是信息检索。对文献内容加以分析概括并且以条理化的形式来表达,叫做信息提取,是中文信息处理研究的一个新热点。自动文摘和自动校对也可以看成是信息提取。
2.1.3 汉语信息的转换
如GB、B和Unicode等内码之间的转换,汉字简体和繁体之间的转换。汉语和其他语言之间的机器翻译,属于不同自然语言之间的转换,也是中文信息处理的重要研究内容。[2]
2.2 从研究者角度看,中文信息处理可分为三种研究类型
2.2.1 基础研究
包括汉字字符集的编码体系、中文信息处理的发展战略和基本方法、汉语计算模型、汉语语料和语言知识库的建设,等等。
2.2.2 应用基础研究
面向应用的基础性技术的研究,包括自动分词技术、词性标注和语义标注技术、语句分析技术、篇章分析技术等等。这些基础性技术不限于特定的应用目的,例如自动分词技术在信息检索和语音合成的预处理阶段、汉字识别和语音识别的后处理阶段都有重要的应用价值。
2.2.3 应用研究
实用系统的设计和研制,如汉字识别系统、汉语语音识别系统、中文全文检索系统、汉外机器翻译系统等等。[2]
3 中文信息处理的主流技术
语料库方法和统计语言模型不但没有过时,而且在可比的统一评测中被证明是当前各国语言信息处理的一种主流技术。
3.1 N元模型
设wi是文本中的任意一个词,如果已知它在该文本中的前两个词 wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:
P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn-1)
不难看出,为了预测词wn的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。 这时的语言模型叫做三元模型(tri-gram):
P(W)≈P(w1)P(w2|w1)∏i(i=3,...,n P(wi|wi-2w-1)
符号∏i i=3,...,n P(...) 表示概率的连乘。一般来说,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有
P(wi|wi-2wi-1) ≈ count(wi-2wi-1wi)/count(wi-2wi-1)
式中count(...) 表示一个特定词序列在整个语料库中出现的累计次数。[4]
3.2 语音识别
让人与计算机自由的交谈,机器能听懂人讲话,是语音识别技术的最终目标。语音识别技术所设计的领域包括:信号处理、模式识别、概率论和信息论、发声机原理和听觉原理、人工智能等。
语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术3个方面,另外还涉及到语音识别单元的选取。
关于语音识别单元的选取,对于大中型词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
关于特征参数提取技术,语音信号中含有丰富的信息,这些信息称为语音信号的声学特征。特征参数提取技术就是为了获得影响语音识别的重要信息,特征参数应该尽量多的反映语义信息,尽量减少说话人的个人信息。
关于模式匹配以及模型训练技术,模型训练是按照一定的准则,从大量已知的模式中获取表征该模式本质特征的模型参数。模式匹配是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。其实,语音识别任务可视为对以下条件概率极大值的计算问题:
W*= argmaxW P(W|speech signal)
= argmaxW P(speech signal|W) P(W)/P(speech signal)
= argmaxW P(speech signal|W) P(W)
式中数学符号argmaxW 表示对不同的候选词序列W计算条件概率P(W|speech signal)的值,从而使W*成为条件概率值最大的词序列。它也就是当前输入语音信号speech signal所对应的输出词串了。
公式第二行是利用贝叶斯定律转写的结果,因为条件概率P(speech signal|W)比较容易估值。公式的分母P(speech signa ) 对给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删除。在公式第三行所示的结果中,P(W)叫做统计语言模型;P(speech signal|W) 叫做声学模型。[4]
3.3 词性标注
用计算机软件标注文本中每个词的词性或义项。这两种标注都是多中选一的问题,关键是如何处理兼类词或多义词。词性标注为句法分析做铺垫,语义标注为词义结构分析打基础,关键是如何处理兼类词或多义词。词性标注为句法分析做铺垫,语义标注为语义结构分析打基础。跟西方语言相比,汉语词性标注的主要困难是缺乏形态,词类判定基础根据词的已实现的句法功能,对上下文的依赖特别严重。汉语的自动分词和词性标注的精确率,将直接影响到后续的句法分析结果。据观察,在汉语句法分析结果中,有高达60%的分析错误来源于分词和词性标注的错误。[3]
在英语的词库中约 14% 的词形(type)具有不只一个词性,而在一个语料库中,总词次数(tockens)中约 30% 是兼类词。从这个统计数字中可以估计出词性标注任务的难度。历史上曾经先后出现过两个方法迥异的英语词性标注系统:TAGGIT系统拥有3000条上下文相关规则,而CLAWS系统完全采用概率统计方法。两个系统各自完成了100万词次的英语语料库的自动词性标注任务。评则结果(见下表)表明,采用概率统计方法的CLAWS系统的标注精度达到96%,比TAGGIT系统提高了近20个百分点。经过改进的CLAWS系统日后承担了英国国家语料库BNC一亿条英语词的词性标注任务。
具体来说,CLAWS系统采用的是词类标记的二元模型。如果令 C = c1...cn 和 W = w1...wn 分别代表词类标记序列和词序列,则词性标注任务可视为在已知词序列W的情况下,计算如下条件概率极大值的问题:
C*= argmaxC P(C|W)
= argmaxC P(W|C)P(C)/P(W)
≈ argmaxC ∏ii=1,...,nP(wi|ci)P(ci|ci-1)
P(C|W)表示:已知输入词序列W的情况下,出现词类标记序列C的条件概率。数学符号argmaxC表示通过考察不同的候选词类标记序列C, 来寻找使条件概率P(C|W)取最大值的那个词序列W*。后者应当就是对W的词性标注结果。
公式第二行是利用贝叶斯定律转写的结果,由于分母P(W)对给定的W是一个常数,不影响极大值的计算,故可以从公式中删除。接着对公式进行近似。首先,引入独立性假设,认为词序列中的任意一个词wi的出现概率近似,只同当前词的词性标记ci有关,而与周围(上下文)的词类标记无关。即词汇概率
P(W|C) ≈ ∏ii=1,...,nP(wi|ci)
其次,采用二元假设,即近似认为任意词类标记 ci的出现概率只同它紧邻的前一个词类标记ci-1有关。因此有:
P(C) ≈∏i i=,...,nP(ci|ci-1)
P(ci|ci-1)是词类标记的转移概率,也叫做二元模型。
上述这两个概率参数也都可以通过带词性标记的语料库来分别估计:
P(wi|ci) ≈ count(wi,ci)/count(ci)
P(ci|ci-1) ≈ count(ci-1ci)/count(ci-1)
4 结束语
随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段。实际上,人们在生产生活中、社会在运转过程中已经高度依赖于中文信息处理。特别是在互联网技术迅猛发展的今天,信息技术的应用已经渗透到了社会的各个角落之中。这种渗透已不仅仅是最初的互联网本身,还包括了移动电话、掌上电脑、电视机顶盒等产品的互联网接人。在我国,所有这些应用都离不开中文信息处理,中文信息处理技术已成为我国信息技术研究、发展、应用和产业的基础。
参考文献:
[1] 曹邦伟,高传善.计算机与信息处理[M].上海:复旦大学出版社,2001.
[2] 陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002,1.
[3] 冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,1.
[4] 黄昌宁.中文信息处理的主流技术是什么?[J].计算机世界报,2002,(24).