基于动态流通语料库(DCC)的中文组织名简称考察与研究

来源 :第七届中文信息处理国际会议 | 被引量 : 0次 | 上传用户:engcourse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于动态流通语料库,构建了一系列组织名简称数据库,并对其进行了校对、各项统计、用字分析和缩略规律的初步考察.
其他文献
"把"字句是现代汉语中十分常用的一种特殊句式,其核心动词一般含有处置或支配的意义。外国或外族的汉语学习者在使用"把"字句时最常犯的一种错误是使用了非法的核心动词。本文探讨"把"字句核心动词的计算机辅助发现方法,针对教师教学采用基于规则的自动发现方式,针对学生学习采用交互发现方式。在发现核心动词的基础上,又介绍了判断核心动词合法性的方法。
基于本体与框架知识表示方法,提出并实现了一种高效并且能够半自动构建领域知识层次结构与概念间关系的方法。首先知识工程师利用BABEL结构化知识表示语言对书本知识中的章节标题信息进行层次结构标记,然后利用BABEL知识编辑系统处理经过标记的书本知识,生成由XML描述存储的层次化结构知识库,实现层次化结构知识的获取.
blog使得人们进行情感交流、观点互动变得更为自由,在很大程度上增强了网络信息的互动性。有着共同兴趣或话题的blog之间通过紧密或松散的连接关系,形成独特的blog群体社区.
本文报告对汉英双语香港法律条文内容及层次结构特征进行XML自动标注的工作。标注好的语料库的整体结构与实际法律逻辑组织结构相同,并且利用标记信息实现条文内容的检索定位。本文的XML双语语料标注遵照国际语料库编码标准XCES,目前在中国关于语料标注遵照国际语料库编码标准XCES的专门报道较少。
文本分类在文本挖掘和文档管理中扮演着重要角色.在文本预处理阶段引入核本体Wordnet丰富文本的表示形式,提高了文本表示的泛化能力。同时给出了次概念的定义。然后采用支持向量机对文本进行分类,最后在标准文集Reuters-21578上的实验结果表明,在文本分类中与没有使用本体相比,使用本体的某些策略能取得更好的效果。
文本分割在信息检索、信息获取、自动利用了文本表层的词汇重现信息,分割效果并不理想。本文在TextTiling算法的基础上,通过分析分割结果,发现仅利用词汇重现信息,难以准确体现主题的连续性。提出了利用知网引入词汇的语义信息,对传统的TextTiling算法进行了改进.实验结果表明,改进的TextTiling方法的召回率和准确率都有了明显提高。
本文在基于语料库的波形拼接式语音合成技术的基础上,研究开发了高自然度的维吾尔语语音合成系统。首先,建立了维吾尔语语音语料库并进行句子、词、音节等多层次的标注;然后,对输入的文本进行预处理后选择合适的合成基元,并采用波形拼接技术合成出语音;最后,为了减少在拼接点处的语音失真和突变,采用基于时域平滑技术对合成语音进行平滑处理,从而减少合成语音中的咔嗒声.
基于内容的语音与音乐数据自动分类是一个十分重要的研究方向,它是许多实际应用的基础。本文对语音与4种典型音乐类数据(钢琴独奏曲、交响乐、京剧、流行歌曲)在不同特征集、不同分类器下的自动分类问题做了比较性研究。实验结果表明对于这个多类分类问题,混合音频特征集与神经网络分类器相结合的效果较好。此外,我们还通过Isomap方法对语音与不同类别的音乐数据之间在混合音频特征集下的相对可分性作了直观的比较。
提出一种基于Bootstrapping的汉语词义消歧模型。该模型采用贝叶斯分类器作为基本分类器,从小规模的词义标注语料出发,分类器通过对初始标注语料的学习来对未标语料判别义项,可信度高的句子加入标注语料集,这样不断提高分类器的性能,在选取可信度高的句子时采用分组策略。实验表明,在相同的标注语料条件下,采用原始策略和分组策略的Bootstrapping算法较基本贝叶斯算法都取得了更好的分类效果,分组
动词"有"是真正意义上的多义词(polysemy),本文依据"潜在歧义理论(Potential Ambiguity theory)"、通过挖掘"有"的上下文句法语义特征,使用复杂特征集(complex features set)描述其上下文的词组类型结构特征和语义选择限制特征,基于Prolog应用Copenhagen Tree Tracer(哥本哈根句法树跟踪显示程序)实现了动词"有"的机器自动消