基于Web检索的语料库资源共享—现状和展望

来源 :第二届全国学生计算语言学研讨会 | 被引量 : 0次 | 上传用户：hellen

【摘要】

：

当前,语料库在语言研究和自然语言处理领域中的地位越来越重要,资源共享也是计算语言学领域的一个热门话题.跟国外相比,国内在这两方面尚有许多工作要做.鉴于语料库的WEB检索在语料库资源共享方面的独特优势,本文从国内外语料库的WEB检索状况出发,探讨了语料库的WEB检索对于语料库建设和资源共享工作的意义,指出WEB检索是推动语料库资源共享的一条新思路.

【作者】

：

胡凤国

【机构】

：

北京广播学院应用语言学系(北京)

【出处】

：

第二届全国学生计算语言学研讨会

【发表日期】

：

2004年6期

【关键词】

：

语料库 WEB检索资源共享自然语言处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

现代汉语“名+名”组合的统计考察

本文以大规模经过分词系统标注后的真实语料的统计数据为依据,对名词特别是二元"名+名"组合的组合能力以及合法性进行了初步的统计分析.

会议

现代汉语分词系统计算语言学标注语料

现代藏语带助动词的谓语组块及其识别

本文在现代藏语组块分析的前提下,讨论带助动词的谓语组块中助动词的自动识别策略.文章首先介绍了藏语助动词的功能以及在各类句法结构中的分布特征,然后根据这些句法分布特征提出了助动词的基本识别算法以及识别中可利用的句法规则.

会议

现代藏语助动词句法分布识别算法

维吾尔文字母频率统计及其应用

本文在超过2000万词汇的大量科学统计的基础上,提供了维文尔字母频率表.这对今后语言文字研究和制定科学的维吾尔文字输入键盘布局方案、维吾尔文字压缩算法的设计、语文类课程内容的补充等众多方面有着非常重要的参考价值.

会议

维吾尔文字母频率统计键盘布局

信息处理用名词细分类研究

词类划分是为句法分析服务的,名词的再分类也必须遵循这一原则.但就现有的名词细类看,由于在分类时为句法分析考虑得不够充分,所以划出的小类对自动句法分析难以起到应有的作用.鉴于此,本文一改过去那种为了把某词放到合适的词类中而找"特点"的做法,而是按照词的句法分布,详细描述每个词的句法功能,按照句法功能总和相同即为一类的标准为名词进行再分类,以期为自动句法分析提供客观依据.

会议

句法结构句法分析句法功能信息处理自然语言处理

为微型语料库标记词类使用田野调查人员记录及基于转换的自动学习

本文以语言学家及田野调查人员习用的注记作为初级词类标记,搭配Brill(1993)的基于转换的错误驱动学习,在较少人为加工的情况下,为微型语料库自动标上词类.在处理注记中的语意及语法信息后,初级标记的正确率约83.89﹪,加上转换规则后约是88.11﹪.本文并报告了标记不同发音人、不同题目、不同语体的具体情况,并指出只使用排名较前的几个规则,可以得到较佳的结果.

会议

词类标记语料库田野调查赛夏语自动学习少数民族语言自然语言

提升自然语言向中间语言转换准确性的增强处理

在基于中间语言的多语信息交流平台中,确保自然语言表述的信息内容能正确地转换为相应的中间语言表示非常重要.而传统基于规则的转换模块屏蔽了这一实现环节,使得分析过程难以控制.为提升转换的准确性,我们在引入子语言后,将源语转换和目标语生成过程结合起来,人机交互的界面处理既提升了源语信息转换的准确性,又提高了目标语生成的自然度,从而进一步增强了多语信息交流平台的可行性.

会议

中间语言子语言交互操作机器翻译

融和丰富语言知识的汉语统计句法分析

我们的汉语统计句法分析模型从3个方面融合丰富的语言特征知识:1)利用非递归名词短语界的相对确定性重新标注树库中的名词短语;2)设计新的中心词映射表;3)引进上下文配置框架.这些语言特征知识使模型的性能提高了10﹪.

会议

统计句法名词短语中心词映射表语言特征汉语句法中文信息处理

模式合一的“减首去尾”算法

本文首先给出了模式合一的相关定义,并对合一的基本性质进行了证明.然后给出了模式合一的算法——"减首去尾"算法,并对算法进行了分析,对算法的正确性进行了证明.最后简要说明了本算法的应用.

会议

模式合一多元多次模式信息抽取计算语言学

蒙古语基本名词短语自动标注研究

本文对蒙古语基本名词短语进行功能分类的前提下,以蒙古语词类和词语形态变化特征为主要依据,归纳出相应的结构规则12条,并用带有复杂特征标记的PSG重写规则形式来进行形式化描述.在此基础上,用C语言编写了基本名词短语自动标注程序,对10万词级蒙古语语料库进行自动标注.目前条件还不太成熟的情况下,实验结果显示了较好的自动标注率.

会议

蒙古语短语结构规则名词短语标注自动标注机器翻译

面向译文质量的EBMT系统实例库优化研究

基于实例的翻译和基于统计的翻译系统中实例库的建设至关重要,近年来对实例库的获取、标记等已经有了很多研究,但在实例库的优化上缺乏相应研究,本文从影响实例库质量的几个因素做了研究.减少了实际EBMT系统实例库的大小,且提高了译文质量.

会议

双语语料库翻译系统译文质量翻译模型

基于Web检索的语料库资源共享—现状和展望

与本文相关的学术论文