《人民日报》1998年语料库中若干基本语言数据的统计与分析

来源 :第一届学生计算语言学研讨会 | 被引量 : 0次 | 上传用户：sophia_yin104

【摘要】

：

本文汇报了对"北京大学计算机语言所1998年《人民日报》语料库"半年语料的统计分析工作.其中统计了语料库中的词频、词在词类上的分布、词类的二元和三元共现、词与二元及三元词类的共现、各种共现在句子首尾端的边界分布.本文还对上述统计结果进行了分析,着重讨论了高频词语词类的分布以及句子的边界情况.这些结论对于该语料库的全面分析提供了重要的基础数据.

【作者】

：

胡景贺

【机构】

：

北京大学计算机系(北京)

【出处】

：

第一届学生计算语言学研讨会

【发表日期】

：

2002年4期

【关键词】

：

词频词类共现散列分布边界语料库自然语言处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于大规模语料库的英语从句识别

英语从句识别对于英语复合句的分析至关重要.本文基于Penn tree bank语料库,通过分析从句的组成规律,利用统计规则,通过分析从句的结构,从句在主句中的位置以及与主动词的关系来识别从句的左右边界,在识别的过程引入了关键词,并考虑到从句嵌套的问题.测试结果表明,句首的封闭测试精确率和召回率分别为91.06﹪和94.07﹪,开放测试精确率和召回率分别为82.13﹪和85.05﹪.

会议

从句识别语料库规则英语句法分析

现代汉语“被”字句的HNC分析

传统语言学将"被"字句大致分为两种结构:甲.NP+被+NP+VP;乙.NP+被+VP,并作了相应的语言特征分析.本文在这个分类的基础上,运用HNC理论的概念表述模式和句类知识对"被"及"被"字句进行再分析,认为在两种不同的结构中,"被"字都是语言逻辑概念,表述为101,即作用者语义块的标志符.但是从作用效应链来看,两种结构的"被"字句在表达上存在角度差异.甲类是从作用角度进行描述的,因此相关的句类

会议

被"被"字句HNC标志符现代汉语

汉语分词及词性标注自动校验方法研究

大规模的标注语料库是语料库语言学发展的重要基础.随着许多科学研究的进一步开展,我们对语料的加工质量提出了更高的要求.本文采用基于上下文搭配的规则和统计相结合的自动校验方法,对机器切分标注语料进行处理,并把自动校验过程中获取的信息,应用于语料库的构建,即采用滚动式的方法,建立大规模的、具有更高加工质量的标注语料库.

会议

自动分词词性标注自动校验语料库质量保证机器切分

基于概念的自然语言处理

基于"概念"进行自然语言处理是近期的研究热点.本文在分析近几年概念的研究成果和经验基础上,从统计模型和概念词典两个方面对基于"概念"的自然语言处理进行了总结,并分析了现存的问题,以及未来研究的方向.作者提出对于"概念"的研究应重视其主观性的一面,并从"概念"自身的规定性出发,逐步规范"概念"在语言学中的定义,从而理清应用"概念"作为语言处理基本单元的处理思路."概念"作为语言表义(完整意义上的主义

会议

概念自然语言处理统计模型计算语言学

汉藏翻译系统中的动词处理研究

机器翻译系统中,语言技术是居于核心地位的技术;谓语是句子结构的核心,动词又是谓语的主要形式,因此翻译系统中的动词的处理至关重要.本文依据汉藏翻译系统的需要,通过汉藏实际语料的对比分析,进行了汉藏动词的特点比较,就动词的分类、动词的时态及动词作句子各种成分时其形态的变化规律进行了深入的讨论,并提出了处理策略,为有效地提高系统的翻译质量提供了有益的方法和思路.

会议

汉藏机器翻译动词处理动词时态

一个简单人机对话系统的实现方法

本文主要谈的是我们在进行一次人机对话实验过程中的实际做法和遇到的困难,以及采取的解决办法.在内容上详细介绍了这个实验模型的实现策略,在某些特定环节上提出了自己的观点.实验中对HL模型进行了开放测试,共实验了100个句子,正确率92﹪,结果基本上是令人满意的.

会议

人机对话句式变换模式匹配句法分析

信息时代的语言问题(代序)

信息化的飞跃发展在世界范围内形成了数字鸿沟,数字鸿沟带来了语言间更大的不公平,并威胁着许多语言的生存,我国的信息化正在快步追赶世界先进水平,这为汉语在信息化时代的生存与发展提供了良好的基础.

会议

语言文字信息数字化处理数字鸿沟汉字规范建设数据库

偏重摘要及其实现技术

偏重摘要系统是一个非常有意义的研究课题.本文实现了用于概念扩展的概念库,并以此为基础提出了偏重摘要系统的实现方法.在偏重摘要的生成过程中,讨论了主题相关加权和偏重相关加权,并且通过一定的策略选取句子形成最终摘要.实验证明,系统对绝大部分文章都能做出既满足用户偏重要求,又能在一定程度上反映全文主题的摘要.

会议

概念扩展偏重摘要自然语言处理概念库相关加权

语音合成技术的现状及发展前景

语音合成技术(Text To Speech)是中文信息处理领域的一项前沿技术.本文介绍了从采用参数合成方法到基音同步叠加,语音合成的研究运用了基于语音数据库的语音合成方法和运用大量的统计和规则的方法,使之较好地解决了三个大的处理环节:特殊符号处理,分词处理和拼接处理;一定领域内实现了中英文混读的高自然度和高流畅度.而使用数据驱动模式生成自然语音的技术,基于新的韵律结构分析和语音建模技术,采用了分散

会议

语音合成文语转换信号编码中文信息处理

一种新的针对汉语TTS的韵律词自动切分方法

以往的语音合成中,分词单位多为词典词,而这种分词单位所形成的韵律信息与TTS所需的韵律信息常不符合.本文针对TTS系统的需要制定了韵律词的标准.分别利用基于规则的方法和基于机器学习的方法对实际文本进行了韵律词级别的自动切分,讨论了韵律词自动切分的前景和难点.

会议

TTS韵律词自动切分语音合成现代汉语

《人民日报》1998年语料库中若干基本语言数据的统计与分析

与本文相关的学术论文