【摘 要】
:
随着Internet飞速发展和网上中文信息的逐渐增多,中文信息处理应用日益广泛,而中文分词是中文信息处理的首要前提。中文与英文不同,中文文本是一个连续的字符流,词与词之间并
论文部分内容阅读
随着Internet飞速发展和网上中文信息的逐渐增多,中文信息处理应用日益广泛,而中文分词是中文信息处理的首要前提。中文与英文不同,中文文本是一个连续的字符流,词与词之间并没有明显的切分标志,因而中文信息处理的首要问题是词的切分问题。中文文本的自动分词已成为中文信息处理的一个前沿课题。本文对中文文档分词进行了研究。首先,介绍了中文分词的相关知识,提出了中文分词所面临的困难,分析了现有中文分词的主要方法和最大匹配方法(Maximum Matching Method,MM),并指出了它们的优缺点。其次,基于提高分词速度的迫切需求,根据最大匹配方法的思想,提出了一个优化最大匹配的分词方法。在分词过程中,只比较待分字串的末尾字,替换现有的最大匹配方法,将待分字串中的所有字符与词典中词进行匹配,快速判断待分字串是否成词。最大匹配方法属于基于词典的分词方法,因此建立一个词典存储结构,并给出了优化最大匹配的分词算法。再次,基于中文分词时常常出现的歧义切分的现象,提出了改进汉语句内相邻字之间的统计信息量的新方法。针对交集型歧义占歧义字段的85%,主要对交集型歧义字段的切分进行研究,提出信息量统计的方法,正确切分歧义字段。最后,采用面向对象的方法,利用本文所提出的算法实现了中文文档分词系统,并描述了系统的体系结构和系统中各模块的工作原理。通过实验对所提方法的正确性和有效性进行了验证。
其他文献
氨基酸主要在肝脏代谢,肝硬化患者的蛋白质、糖类、脂肪代谢紊乱,体内氨基酸代谢失衡,继而引起全身多脏器、多系统的功能不全,出现肝性脑病、食管静脉曲张破裂出血、腹水等并
虚拟经济是市场经济高度发达的产物,虚拟经济和实体经济成为宏观经济运行中两种不同的经济形态。由于当代经济中虚拟经济与实体经济的紧密联系,虚拟经济促进实体经济增长的同
语法作为语言的基本规律和法则,是语言得以发挥正常交际功能的基石。自《马氏文通》出版以来,汉语语法逐渐进入了课堂教学,但地位却始终没有确定下来,“淡化”甚至“取消”语
在漫漫历史长河中,人类创造了丰富多彩的非物质文化遗产。非物质文化遗产是确定社区群体文化特性的重要来源,是世界文化多样性的生动体现。由于其本身的脆弱性以及现代文明的
以CAS奥运会体育仲裁区别于一般仲裁为逻辑起点,论证了CAS奥运会体育仲裁与程序正义的关系,及CAS奥运会体育仲裁遵循程序正义的必要性。研究认为CAS奥运会体育仲裁在推进国际
微型月季(Rosa chinensis Minima或Rosa roelletti)为蔷薇科蔷薇属木本植物,市场上多以盆栽形式出售,在生产上一般多采用扦插繁殖法。而微型月季株型矮小,节数少,受种苗数量以
[背景]艾滋病是全球面临的重大公共卫生问题,严重威胁着妇女和儿童的健康与生命。全球1/6艾滋病相关疾病死亡和1/7新发艾滋病毒感染者是15岁以下儿童,其中90%的15岁以下HIV感
当前以贸易自由化为主要内容的经济全球化,对各国的经济增长和社会发展产生了重要影响。经济全球化的发展、区域经济合作的加深以及知识经济的推进对新世纪世界经济的影响具
近年来,随着全球化进程加快,企业集团的跨地域经营战略的迅速发展,越来越多的企业开始采用财务共享服务模式,财务共享服务的优越性也为更多国内大型企业所接受,很多企业认识
如何在刑事司法中实现被害人利益保护与犯罪人回归社会两大目标的平衡是当今世界各国刑事政策面临的一项重大而又无法回避的课题。基于对现行刑事司法诸多问题的切身体会与深