基础教育资源搜索引擎中的分词技术研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:JK0803_chenjiehua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动分词技术是自然语言处理的基础工程。任何基丁词一级的中文处理应用系统都离不开分词系统。自动分词技术的重点和难点在于歧义切分处理利未登录词的识别。 本文结合基础教育资源搜索引擎项目工程,提出了中文分词在该项目中的解决方案。 对歧义词的处理,本文统计高频特征词的构词特点,提出并采用了“高频特征词”消歧义的办法,同时系统实现时辅助以“统计汉字二元语法关系”的方法来解决交集歧义的问题。 对姓名的处理,本文主要是结合统计与规则两种方法各自的优点,统计语料库,并对这些姓名用字进行分析,提出了自己的分类策略。采用分词碎片识别中文姓名法,对常见。的姓名识别率达到90%左右。 对其它未登录词的处理,本文尝试采用高频重复词自动识别,能把每篇文章中出现的高频未登录词统计出来(匹配次数、文章篇数),然后根据权重计算,计算机能把它自动加入到词库,从而可以自动的扩充主词库的容量。 本文最后对分词系统的构架、流程、接口设计进行了阐述。
其他文献
知识经济初现端倪,科学技术突飞猛进,人类迎来了崭新的创业时代。创业教育已是国内外大学新时期教育创新的一个重要课题。 研究生教育是最高层次的高等教育,对研究生教育所
本文通过对荣华二采区10
期刊
随着信息技术和网络技术的迅猛发展,不断出现庞大的、不同内容的图像信息库,尤其是互联网上的图像资源,不断地成倍增长;数字图像以其直观、生动、形象的特性,成为教学与教育中广泛
对于中华民族来说,异质文化指世界同质文化之外的,与中国本土文化有着显著差异,性质截然不同,富有明显地域特征的外域文化。高等教育的目是促进人的全面发展;高等教育有传承文化、
图书区活动对幼儿的发展有着重要价值。而事实上,幼儿园图书区在实际利用中存在诸多问题,并没有发挥其应有的价值。本研究试图以观察法的形式调査图书区利用的现状,发现其中存在
随着我国体育赞助市场的兴起和发展,以及高等教育改革的不断深化和创新,越来越多的高校把企业赞助作为市场经济条件下解决高校体育竞赛活动经费短缺问题的一个重要手段和途径。