中文信息处理的技术

来源 :世界华商经济年鉴·科技财经版 | 被引量 : 0次 | 上传用户:linjavac
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文分析了中文信息处理的主流技术,尤其是几个重要的部分,即N元模型、语音识别和句法分析技术。
  关键词:信息处理 N元模型 语音识别 句法分析
  一、中文信息处理的特点
  (一)汉字的特殊性
  我们都知道,英语在计算机信息处理方面的优势就是其字母数量有限,因而可以很容易的进行输入输出以及信息的加工和处理,而中文的汉字则数量庞大,且字形相对复杂,这就给汉字的编码带来了不小的困扰。因此我们根据汉字信息处理过程中的不同要求对汉字进行了不同形式的编码,总结来说有以下几种方案,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。
  (二)书面汉语的特殊性
  汉语的另一个特征是在书面表达中,词语和记号之间没有明显的分隔标记,这就使自动分词在书面汉语分析中成立一个难题。分词需要将连续的字按照一定的规范进行有序的组合,比较英文我们会发现,英文单词之间都是用空格来做分隔符,而中文则是习惯通过字、整句以及段落进行简单的划分,而这其中的一个难点就是对词语的划分,我们都知道,英语中也有短语划分的问题,但是由于中文的词语远比英语的数量和范围要庞大,因而处理起来更为困难。
  (三)汉语语音的特殊性
  在语音方面,汉语的特征是音节结构相对简单,音节划分界限比较清晰,但是声调和变调是中文与英文的显著区别,因而在语音识别和语音合成方面来讲这是一个劣势,但是总体上来说汉语语音的处理比之其他方面来说还是相对容易的。
  (四)汉语语法的特殊性
  在语法方面,汉语词汇的句法功能相对来说难以判断,这与英语语言上的多变形态有着截然不同的表现。汉语主要依靠词序和虚词来表达不同的含义,因此如果不能很好的掌握句法,就特别容易产生歧义,因此汉语语句自动分析这一重要技术是一项难以攻克的技术。
  二、中文信息处理的若干技术
  (一)N元模型
  设wi是文本中的任意一个词,如果已知它在该文本中的前两个词wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就 是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2。。。wn,则统计语言模型就是该 词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:P(W)=P(w1)P(w2|w1)P(w3|w1 w2)。。。 P(wn|w1 w2。。。wn-1)不难看出,为了预测词w n的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任 意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。这时的语言模型叫做三元模型(tri- gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1) 转贴于 中国论文下载中
  符号∏i i=3,…,n P(…)表示概率的连乘。一般来说,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有P(wi|wi-2wi-1)≈count(wi-2wi-1wi)/count(wi-2wi-1)式中count(…)表示一个特定词序列在整个语料库中出现的累计次数。
  (二)语音识别
  语音识别的最终目标是使人类与计算机之间实现真正意义上的自由交流,使机器听懂人类的语言,并及时的做出准确的反馈。语音识别技术包括了信号处理、模式 识别、概率论和信息论、发声机原理和听觉原理、人工智能等主要内容。语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术3个方面,另外还涉及 到语音识别单元的选取,在这个问题上我们通常采用的是以音节为识别单元。另外,在特征参数的提取技术方面,由于语音符号中含有大量的信息,它们通常被称为 声学特征。特征参数是决定语音识别质量的关键技术,因此我们应该极可能的采集所要传播语言的语义信息,剔除掉说话人的个人信息干扰,这样才能保证特征参数 的有效性和准确性。
  (三)句法分析
  句法分析是以汉语的语法特征为分析方法,对句子、段落中的短语结构树进行各个句子成分 关系的分析,分析的主要内容包括:句子中所有的单句,每个单句在句法中的作用是什么,在单句以上更大的语法结构是什么,句子中的短语或词组类型是什么,在 句子中起了什么作用,最后,所有这些成分是如何有机组合或附着在整个句子中的,这些就是句法结构分析的主要内容,这叫做线图分析法。值得说明的是,英语语言结构中主语必须置于谓语之前,否则所表达的意思就完全变化了,当然,在一些特定情况下,如倒装句结构中这种情况还是普遍存在的。这一点是与汉语有着显著的区别的。
  三、结语
  中文信息处理技术有着重要的意义,它是语言学与信息技术的有机融合,旨在对中文的音、形、义等输入计算机,进而进行必要的信息加工与处理,在这一过程中涉及到了计算机科学、信息学、声学等大量学科的交叉知识。具体来说,语言信息处理是将自然语 言的各个部分,包括词语、句子、段落以至篇章进行文本、声音和图像各种方式的信息化加工,然后对这些信息进行输入输出、压缩、存储以及检索等等各项处理。 我们都知道,自然语言是我们日常最重要的交流沟通工具,是人类进行思维活动、文化传播的有效载体,因此语言信息处理这种技术有着重要的意义,本文专门分析 了利用计算机处理中文信息,即汉语信息处理技术,希望本文能够对同行们有所启示,还望能够多多交流学习,更好的完善这项技术。
  参考文献:
  [1]曹邦伟,高传善.计算机与信息处理[M].上海:复旦大学出版社,2001.
  [2]陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002,(1).
  [3]冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,(1).
其他文献
【摘要】现今社会电子信息产品在各个行业中发挥着它独特的优势。电子信息已经成为人们生活不可缺少的一部分。从我们的一天生活的开始到结束我们无处不在和电子信息、电子信息产品打交道。电子信息产品提高的电子信息切实的提高了我们生活的效能。目前大多数企业使用电子信息化的企业管理制度,提高企业的管理技能,在人员的分配上达到少而精。着重的阐述现代电子信息提高效能监察的应用。  【关键词】 电子信息 效能监察 应用
期刊
摘要:在近几十年来的油气勘探工作中,测井、物探、地质、遥感、化探等勘探方法获得了飞速发展和广泛应用,根据现实需求地理信息系统在石油测井评价工作中有很大的应用前景。本文以某油田为基础,结合相关资料,对地理信息系统及石油行业与地理信息系统的关系作了初步的探索。  关键词:地理信息系统;3S系统;石油;石油勘探  地理信息系统(GIs)的概念  GIS是计算机科学、地理学、测量学、地图学等多门学科综合的
期刊
摘要:马克思曾指出:“全部人类历史的第一个前提无疑是有生命的个人的存在。” 然而,作为“全部人类历史的第一个前提”,“有生命的个人的存在”如今正面临前所未有的危机。当代社会,频发的消费安全问题已对人的存在造成了极大威胁。在生理和心理上,当代人都不可避免地承受着巨大的挑战与惶恐。  关键词 感性存在 消费安全 现代性 超感性  当前,频发的消费安全问题所昭示出的是:“超感性”的当代突起与作为“感性对
期刊
【摘要】 现代社会,计算机已经应用在各个方面,信息的处理,以及在网络中的信息处理和网络的信息安全都成为我们探讨和研究的问题,就网络信息处理和网络安全方面涉及的内容,探讨计算机在这些方面的应用问题。 信息处理是指对数据进行处理,使它获得新的结构和形态,或者产生新的数据。比如,网络和计算机系统就是一种信息处理系统,通过对输入数据的处理,可获得不同形态的新的数据。信息处理包括信息的采集和输入、信息的传输
期刊
[摘要]对于在一个法制社会开展经济活动的微型企业来说,需要防范各种经营风险和法律风险、合法、守法经营及发展,否则一个法律纠纷就可能对微型企业造成致命的打击。所以对微型企业给予相关的法律服务,对促进微型企业健康发展势必会起到积极的作用。然而关于微型企业法律服务的实践尚不完善,这需要探索建立一个综合的微型企业法律服务体系为微型企业保驾护航。  [关键词] 微型企业 法律服务 体系建立 法律问题  目前
期刊
【摘要】 休闲观光农业是一种以农业和农村为载体的新型旅游形态,它包括城乡结合部的近郊农业,还包括远郊甚至大都市经济圈内适应大都市市场需求的农业。它是农业与旅游业边缘交叉的新型产业,是经济发展到一定时期后的产物,是农民增收的又一新的途径。城市近郊区发展这一特色产业具有独特的优势。  【关键词】 休闲农业 乌海 产业调整  随着收入的增加,假日经济的兴起,生活节奏的加快以及竞争的日益激烈,人们渴望多样
期刊
摘 要:气象预报预测准确率和精细化水平是气象业务发展发展的重要标志,分析制约、影响气象局天气预报业务准确率的主要因素,从强化综合观测基础作用,完善灾害性天气短时、临近预警预报系统,提升基层台站预报业务和服务能力,做好预报预测业务人才支撑保障作用等方面对提高天气预报预测准确率进行探讨。  关键词:气象预报;精细化;准确度;影响因素;措施  随着科技的发展,天气预测的技术也得到了快速的发展,尤其是基于
期刊
摘 要:此文以马克思辨证、历史唯物主义为指导,较系统解读了党的民族宗教政策及西藏发展历程,为西藏建设及涉藏意识形态领域斗争提供理论依据。  关键词:西藏问题 意识形态 系统解读 理论基础  伴随世界多极化、经济全球化、文化多样性深入、全球发展不平衡加速,霸权主义、强权政治和新干预主义加剧,作为世界上人口最多的社会主义国家、中国的崛起,不能不引起世界反弹,由此国家面临的安全环境愈加复杂,意识形态领域
期刊
[摘要]从现代刑事责任能力的角度来看,老年人的认知能力和控制能力下降是不庸质疑的事实,矜老也有其合理性。当今社会,老年罪犯与其他罪犯混同羁押、劳动改造强度、医疗卫生条件等方面带来的问题日益凸出。目前尚未有学者深入分析此问题的产生原因,也缺乏预防此问题的合理制度。以史为鉴,可以明得失。立法不能忽视人性和文化。传统道德和习惯是立法不可或缺的“本土资源”。  [关键词]儒家德治 恤刑闵囚 矜老制度 老年
期刊
改革开放以来,我国的市场经济迅速发展,而竞争作为市场经济的内在要求,其必然在这一过程中发挥着巨大的作用。然而,事物往往具有两面性,市场经济的逐利性使得一些经营者通过不法手段进行竞争以获取更高额的利润,商业诽谤即属于一种。作为一种极为突出和典型的不正当竞争方式,商业诽谤一直是各国的反不正当竞争法打击的重点之一。我国的《反不正当竞争法》中同样对其进行了规制,但还远远不能适应经济环境的变化,需要尽快加以
期刊