中文自动分词若干技术的研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户：amorg

【摘要】

：

近年来,随着国民经济信息化的不断发展以及Internet的普及,中文信息处理技术的应用日益广泛。由于中文文本是按句连写的,词间无间隙,因而中文信息处理的首要问题是词的切分问

【作者】

：

柴宝杰

【机构】

：

燕山大学

【出处】

：

燕山大学

【发表日期】

：

2007年期

【关键词】

：

自动分词词典机制 PATRICIA Tree 歧义切分姓名识别机构名称识别地名识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着国民经济信息化的不断发展以及Internet的普及,中文信息处理技术的应用日益广泛。由于中文文本是按句连写的,词间无间隙,因而中文信息处理的首要问题是词的切分问题。中文文本自动分词已成为中文信息处理的一个前沿课题。本课题对中文自动分词方法、歧义字段的计算机自动识别、命名实体的计算机自动识别、中文自动分词词典机制等技术进行了分析和研究。针对某些技术上的不足,提出了改进方案。本论文的主要工作有:(1)歧义字段的计算机自动识别对歧义字段产生的原因进行了研究,给出了交集型歧义字段和组合型歧义字段的计算机自动识别方法。(2)命名实体的计算机自动识别分析了中文姓名中姓和名的各自特点,给出了中文姓名的自动识别方法;对中文地名的计算机自动识别给出了利用知识库和规则库,采用推理机制进行计算机自动识别的方法;对机构名称的计算机自动识别技术以高校名称为例,从其语法性质、语义特性和组织规律等特征入手,给出了高校名称识别的基本规则。(3)中文自动分词词典机制介绍了三种典型的中文自动分词词典机制:整词二分、TRIE索引树及逐字二分的词典机制;对基于PATRICIA Tree的中文自动分词词典机制进行了改进,并对改进后的机制—“首字哈希-词尾PATRICIA Tree”机制进行了实验检验。实验结果显示,“首字哈希-词尾PATRICIA Tree”机制在时间和空间效率上都有很大提高。

其他文献

基于运行时验证的AOP程序检测框架研究

面向对象编程(Obiect-Oriented Programming,OOP)是一种实现软件模块化和可重用的编程规范,较好地解决对象和数据的封装问题。但是随着编程实践的日益丰富,OOP也表现出缺陷:

学位

面向切面编程运行时验证模型检测连接点线性时序逻辑注解

基于本体的旅游领域Web信息抽取

随着Internet和Web技术的发展,WWW已经成为一个巨大的信息资源库,然而使用传统的搜索引擎,用户要精确地找到所需信息往往十分困难。Web信息抽取技术正是在这样的背景下出现的

学位

本体OWLWeb信息抽取SHOIQ(D)-Tableaux算法

P2P网络群发通信算法优化研究与模拟

随着P2P技术在各个领域的广泛运用，以P2P网络为依托的P2P群发通信算法日益成为影响P2P技术发展的一个重要方面。由于通常使用并发通信时间作为衡量P2P网络中群发通信算法的主

学位

对等网络短信群发网络架构蚁群算法P2P网络

程序代码复制检测中特征串提取技术研究

复制检测技术在信息时代得到非常广泛的应用,尤其在计算机程序设计方面。复制检测又为两类:一类是形式化语言文本(如:计算机程序代码等)复制检测,另一类是自然语言文本复制检

学位

程序代码复制检测相似度特征值树形结构串

基于特征串比较的自动眉毛识别方法研究

生物特征识别技术比传统身份鉴别方法更安全、更方便,同时能够克服传统身份鉴别方法易丢失、易仿冒、易破解的缺点,是近些年兴起的热门学科,已经逐渐成为国内外的一个研究热

学位

阈值膨胀极大紧邻子树k均值法编辑距离自动眉毛识别

便携式心电仪显示模块的设计与实现

显示模块是心电设备的重要组成部分,为心电设备提供人机交互和显示效果的支持。好的人机交互和显示效果可以方便用户操作心电仪和观察心电数据,对准确判断至关重要。本文针对

学位

心电仪LCD触摸屏

无线网络流媒体直播系统的关键技术研究

随着计算机网络和多媒体技术的不断发展,流媒体直播技术的应用越来越广泛。近几年,无线网络的飞速发展和带宽的迅速提高,为流媒体技术在无线网络中的应用奠定了坚实的基础。

学位

无线网络拥塞控制流媒体丢包率

中文自动分词若干技术的研究

其他学术论文