相似词及其在计算机辅助校对系统中的应用

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户：szcentsweb

【摘要】

：

统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高.把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系

【作者】

：

罗智勇[1]宋柔[2]

【机构】

：

北京工业大学计算机学院,北京,100022

【出处】

：

全国第八届计算语言学联合学术会议

【发表日期】

：

2005年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高.把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而且这种相似关系不能用作分类原则,因为它不满足传递性.为此,我们提出了一种解决方案:对于每个词,根据其在大规模语料库中的上下文分布特征,建立以该词为核心的相似词集合,用相似词的ngram估计核心词的ngram.本文介绍了相似词集合的确定方法,并介绍了这一方法在计算机辅助校对中的应用.

其他文献

基于语境计算模型的词义消歧

本文提出相对词频的概念,据此建立起语境计算模型,利用歧义字段前后语境词语相对词频信息对多义词进行消歧.以"黄色"和"黄金"为例进行实验,封闭测试精确率分别达到99.41％和98.

会议

语境计算模型相对词频精确率试验结果歧义字段测试后语境多义词证明信息实验黄金概念方法词语

情境描述的构建方法研究

情境描述是基于情境的词汇语义学的核心和基础.本文首先介绍了我们构建情境描述的基本准则,然后通过"符合"情境的构思过程提出了情境提炼的基本方法,最后介绍了我们设计的情

会议

情境描述构建词汇语义学支撑平台语义词典认知图式认知过程开发平台基本准则基本方法资源设计人工基础构思

著名经济学家张曙光建议发行社会保障特别国债

阻碍当前经济复苏的关键在于人们的预期看淡,而预期不稳又与大批职工下岗待业使收入预期降低、社会保障和医疗制度改革使支出预期增大有关。 1999年计划增发3165亿国债。如

期刊

医疗制度改革张曙光收入预期职工下岗经济学家启动消费乘数基金管理国有企业社会保障基金

汉语人称代词消解的前端处理

本文讨论了汉语人称代词消解的前端处理所需要解决的两大问题:(1)潜在先行语的识别和捆绑处理(2)人称代词和先行语语法角色的识别.提出可能成为先行语的名词短语的捆绑算法以

会议

汉语人称代词消解先行语语法角色捆绑算法识别前端处理名词短语分析算法测试结果手工

基于Unicode编码的维、哈、柯文软件用户界面组件研究和实践

一个好的应用程序不仅要有强大的功能,还要有美观实用的用户界面.界面设计不仅是编程的问题,也需要一定的美学修养.本文基于Unicode编码的软件开发技术的研究基础上,对维、哈

会议

编码软件用户界面界面组件应用程序美学修养开发技术界面设计界面技术继承关系功能析出基础构建方法编程

《人民日报》标注语料的初步统计分析

本文介绍了作者在人民日报标注语料库分析上的一些经验,提供了相关的研究结果.采用统计技术对熟语料库进行研究,其目的是为了汉语的自动分析.统计结果表明,即使语料标注经过

会议

人民标注语料语料库技术自动分析统计学习方法语料库分析语料标注统计结果统计技术人工干预汉语词类研究语言学权益经验

Windows平台下朝鲜文输入法实现详析

目前计算机已经成为我们工作、学习、娱乐的必备工具,而输入法是我们使用计算机所必须要接触的部分.如果输入法设计得当,那么必将提高计算机的使用效率和人机交互的友好性.本

会议

平台朝鲜文输入法计算机输入码序列人机交互分析方法友好性娱乐学习效率设计键盘工具

基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析

词表对于中文信息处理等领域具有重要的价值和意义.作者对从2002年10种主流报纸中提取的两个词表(流通度表和使用度表)前3000词语进行了比较,如果把使用度词表作为初表,对比

会议

现代汉语基本词汇先验集的考察分析研究

基本词汇是词汇的核心,是汉语教学、语言本体研究及信息处理领域的基础.当前对基本词汇的研究还远远不够,还没有一个现实存在的基本词汇集,更没有对其量化测定的手段,本文介

会议

汉语教学基本词汇先验集语言本体研究自动提取信息处理量化测定动态流通词汇研究语料库计算机词汇集特性考察基础

高频最大交集型歧义字段问题研究

交集型歧义是中文分词的一大难题,建立大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义.本文采用全切分方法,在4亿字人民日报语料

会议

相似词及其在计算机辅助校对系统中的应用

与本文相关的学术论文