【摘 要】
:
中文自动分词是实现搜索引擎信息检索的基础,长期以来一直是人们研究的重点,它广泛应用于中文信息处理的各个领域。传统的分词系统大都采用基于词典机制的分词算法,它们必须在分
论文部分内容阅读
中文自动分词是实现搜索引擎信息检索的基础,长期以来一直是人们研究的重点,它广泛应用于中文信息处理的各个领域。传统的分词系统大都采用基于词典机制的分词算法,它们必须在分词速度和精度之间做出选择,要提高速度,就要适当放弃精度的追求,缩减词典,减少匹配次数,而要提高切分精度,就得舍弃速度,扩充词典,匹配次数也会增加。
本文在介绍中文分词研究现状和基本概念的基础上,通过研究传统的词典机制,设计和实现了一个高效的中文自动分词系统。在本文设计的分词系统中,词典中的每个词条加载到设计好的双层哈希数据结构中去,且常驻内存,待分词的文本用标点符号和空格被分割成一个个更小单位的的字符串,采用正向减字相对最大匹配法对字符串进行分词,对粗分的分词结果运用回退一字和统计规则相结合的方法来识别和处理歧义字段和新词。其改进特点主要体现在两个方面,一是采用“双层哈希+二分查找”的算法进行词典匹配,可以在较短的时间内能达到匹配成功的目的,二是切分算法采用正向减字相对最大匹配法,每次切分的是某字开始词语的最长长度,而不是词典中词语的最长长度,既防止了过长词条的遗漏,又减少了不必要的匹配次数,提高了分词的速度。
最后,本文使用有针对性的文本用例对本文给出的分词系统进行了测试,将实验结果和类似分词系统的运行结果进行比较和分析,结果表明本文设计分词系统在速度和精度上均有较大的优势。
其他文献
目前,P2P技术广泛应用到文件共享、即时通讯等众多领域中,在这些应用获得了一定成就的同时,也给网络中的用户提供了的帮助和带来了享受。在众多应用中,文件共享的应用是P2P技
随着计算机网络与信息技术飞速发展,信息的获取、发布和分享进入了一个新时代。Web服务解决了传统网络应用程序的分布式对象、中间件技术的相互独立性和紧耦合性,其诸多优点
随着P2P技术的发展,其应用越来越广泛,其中基于分布式哈希表(DHT)的P2P资源搜索算法正是近年来P2P技术领域研究的热点。对于基于DHT系统的大量研究主要集中在如何提高查询效率
数据中心是Internet的重要基础设施,它为用户提供数据存储、计算和传输等核心服务支撑。随着网络技术的高速发展,特别是大数据时代的到来,数据中心在Web服务、搜索引擎、电子
随着无线通信技术和移动终端技术的快速发展,以IEEE802.11为基础的无线局域网(WLAN)得到了越来越广泛的应用。与此同时,VoIP以其价格低廉、资源利用率高等优点成为当今发展最快
大数据时代的到来,一方面我们需要安全有效地存储海量数据信息,存储系统的容量亟待增大;另一方面大数据量也对数据处理能力提出了新的要求,存储系统的性能亟需提升。重复数据
本文的主要研究内容是病灶区域定位在医学图像处理中的应用。首先研究了病灶区域分析和搜索,把人的主观感觉和计算机自动处理过程结合起来。其次研究和分析了各种分割算法,重
虚拟人体服装模特是一种面向服装制造工业的3D人体模型,一方面它要满足服装制造过程中量体裁衣的要求,另一方面还要满足用户的需求,构建出符合用户要求的人体模型。本文以这
近年来,P2P技术作为一种全新的网络应用,正主导着互联网的发展方向,与此同时P2P的管理问题也成为当前互联网络中最大的难题。因此,实现对P2P流量的有效识别及控制成为了当前