基于Hash算法的中文自动分词技术研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:wuddy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词技术是网络搜索引擎的关键技术之一,是中文信息处理中的重要环节,也是智能计算、文献标引、自然语言理解和处理的基础。在对Hash算法和现有分词词典机制研究基础上,根据汉语中四字成语较多这一事实,提出了四字哈希的分词词典机制(该机制未见有相关论文报道),基于这种词典设计了一种快速的分词算法。理论分析表明该算法的时间复杂度比现有的分词算法都有很大的改进,但在存储空间上要比其它的分词算法大1M左右。因1M左右的内存和实时信息处理中的响应时间比起来不重要,所以这个算法是很有实用价值的。歧义字段切分和未登录词识别是影响中文自动分词切分精度的两个主要因素。针对歧义字段切分,首先分析了歧义产生的根源,然后研究了歧义字段的识别和处理方法,在此基础上提出了一种基于知识库的交集型歧义字段切分算法和一种改进的上下文相关的歧义字段切分算法。前者在使用的过程中,可以通过知识学习的手段,以丰富系统的知识,提高分词的精度,缺点是分词知识的选取和知识库的构造比较困难;后者充分挖掘了歧义字段所处的上下文环境等信息,可以更加精确地模拟人类的思维方式。未登录词中的专有名词的识别是中文自动分词技术的又一个难点。文章提出的统计和规则相结合的中文姓名自动识别方法摒弃了统计方法中纯粹利用统计算法的局限性,消除了规则方法中的姓名识别规则或多或少地存在遗漏的问题,具有两者的优点。
其他文献
随着计算机和网络技术的飞速发展,计算机支持的协同工作CSCW已经在越来越多的领域里得到了广泛的应用。协同编辑作为CSCW的典型应用已经成为CSCW研究和应用的一个重要方向。同
功能性纺织产品因其超出传统纺织品的特殊性能得到了越来越广泛的应用,它的研究与开发也是各国学者关注的重点。在功能性纺织品研究领域中,对纺织品热湿性能的研究分析是其重要
近年来,智能交通系统(ITS)在交通领域得到了广泛的应用,为满足ITS各子系统间资源共享的迫切需求,需要研究和改进ITS子系统间的信息集成技术,完善ITS信息共享方案。课题组前期
近年来,作为数字媒体版权保护的有效方法,数字水印技术引起了研究人员的广泛关注。数字图像水印技术通过在数字图像中嵌入感官上不可见的数字水印信息,为数字图像在版权保护、认
在基于IPv6的下一代互联网下,如何在使用不同技术、具有不同功能、遵守不同标准的异构系统之间,实现平滑和安全的数据交换与共享,是当前面临着的一个难题。 为解决上述问
支持向量机(support vector machine,SVM)是一种新的机器学习算法,是借助于最优化方法解决机器学习问题的新工具,它的理论基础是Vapnik创建的统计学习理论。它通过结构风险最小
作为多领域交叉的新兴技术图像拼接技术,旨在将多幅小视域图像序列融合成一幅具有更大视域的拼接图像。广泛应用于航天图像和遥感图像拼接、虚拟场景重构以及虚拟漫游、医学图
神经网络研究的重要意义已经为许多科学家所承认,它是计算智能发展的一个主流方向,在关于神经网络的文献中,带有一个或者更多反馈回路的神经网络被称为递归神经网络,这类神经
激烈的市场竞争和迅速变化的客户需求迫使企业需要建立一个随需应变的信息系统平台来更好的支撑其业务运营。在构建这一实时信息系统的过程中,企业首先需要建立一个消除企业内
计算机网络和通讯网络的综合发展,促成了智能网系统在通信领域的飞速发展。通讯网络在这几年的发展方向己经开始从扩展网络容量向增加和丰富业务内容的方向转变。智能网系统