【摘 要】
:
随着社会信息化的发展,无论是党政机关,还是公司企业学校,人们更青睐于用电子文档的形式来存储、备份文档。于是电子信息迅速增长成了海量信息,这给人们从中获取自己所需的信
论文部分内容阅读
随着社会信息化的发展,无论是党政机关,还是公司企业学校,人们更青睐于用电子文档的形式来存储、备份文档。于是电子信息迅速增长成了海量信息,这给人们从中获取自己所需的信息增加了很大的困难,所以必须对海量信息进行处理,中文分词技术就是中文信息处理的基础。经过十几年的研究发展中文分词技术有了很大突破,但是中文分词系统始终存在着不足,这是由于中文语言的复杂性导致的。为了提高中文分词系统的准确率,通过对中文分词现状的学习,深入研究了常用的中文分词算法和各种分词词典结构,提出了改进算法。本文提出了一个基于双数组的逆向匹配分词算法,在词典结构上,使用双数组词典,它继承了TRIE索引树逐字匹配的特点,节省了空间,提高了查询效率;在匹配算法上,根据统计在同等条件下,单纯使用逆向最大匹配比正向最大匹配的错误率低,所以本文实现的算法是结合了双数组和逆向匹配的优点。从实验结果来看,这种结合了双数组逆序词典结构和逆向匹配的中文分词算法取得了较好的成果。为了给算法提供一个好的应用环境,本文设计了一个基于文档类别的层次中文分词系统。一般说来,分词模型不考虑文本的类别属性,然而对于类别信息丰富、复杂度大、专业性强的知识管理应用系统而言,就需要更具针对性的分词方式。这种基于文档类别的中文分词系统模型,分为输入层、分类层、分词层、数据层;数据层的词典有四种:分别是基础信息词典、核心词典、专业词典和临时词典。由于专业词典具有针对性,占用空间小,灵活性高,易更新,使得未登录词能及时得到补充。该系统能够对携带分类信息的文本按照类别选择专业词典进行层次分词处理,提高了专业词汇的切分准确率,在试验中得到了良好的证明。
其他文献
系统研究不同LED光质对剑麻组培苗在不同光质的照射下各生长指标的差异性,找到适宜剑麻组培苗生长快繁的最优光质,从而为剑麻组培专用LED光源的研发提供数据支持和理论依据。
在不断变化的市场环境中,柔性思维是我国邮政物流改变传统经验思维和管理理念,快速适应环境的战略举措。探索邮政服务柔性能力问题,有助于提高企业应对外部环境变化的能力,创
目的 探讨浆细胞病骨髓细胞形态学特征及其临床价值。方法 选取浆细胞病患者114例,均行骨髓细胞形态学检查。给予患者骨髓穿刺后涂片,选择厚薄适宜的骨髓涂片瑞氏染色,然后分类
如何实现准确的体型分析是满足消费者对服装合体性要求的关键问题。为提高服装臀部的合体性,着重探讨与人体臀部体型密切相关的截面曲线的变化,借助数理统计方法对女性臀部体
中小商业银行经过十余年发展已经成为我国银行业的一支重要力量 ,并促进了银行业的改革。但其当前的状况并不令人乐观。本文旨在通过对股份制商业银行和城市商业银行现状和问
随着生活节奏的加快,传统的排队购票、纸质验票的方式己不能满足人们的需求。智能卡技术和近距离通信技术NFC的快速发展催生了电子票务的兴起,但电子票务从诞生起就面临安全
南宁是广西壮族自治区的首府,是广西北部湾经济圈的重心,同时也是西南地区海陆空交通的枢纽城市。随东盟博览会永久设立南宁以及中国一东盟经济交流的广泛与深入,南宁经济取
目的围手术期高血糖系术后并发症的独立危险因素,因此近年来备受关注。目前对围术期高血糖的研究主要集中在外科危重症、心脏手术患者,而外科择期手术患者,尤其是非糖尿病患
信息技术的发展给人们的现代生活带来了更多的便利,随着互联网技术的进步,特别是Web2.0技术如博客、社交网络、微博的发展,互联网的使用者——人类的角色也在发生着转变。互
平原地区垃圾填埋场采用水平防渗系统的缺点是填埋场施工过程中和投入使用后防渗系统一旦遭到破坏将很难进行修补,并且不易被及时发现。提出施工过程中和填埋作业时应注意的