面向中文地址的分词引擎设计及实现

被引量 : 12次 | 上传用户:dabobo38
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据调查显示,城市信息中将近80%的信息与地理位置有关,而这些信息大多没有空间坐标,尤其是中文地址,这对于城市信息化来说是极大的阻碍。中文地理编码就是一门可以把空间数据和非空间数据联系起来的技术,而中文地址分词引擎又是其中最为关键的技术,它是中文地理编码引擎与中文地址信息的沟通桥梁。中文地址分词引擎帮助城市信息化数据整合,让各种数据能够以一种更为直观的方式进行展现,辅助管理者进行有效的决策,提升管理水平。因此,本文的研究是借鉴当前主流的分词技术,设计与实现一个符合中文地址实际情况的分词引擎。本文研究面向中文地址的分词引擎设计及实现,具体来讲,主要研究了以下几方面:(1)设计了一个面向中文地名的知识库。通过对大量中国地名信息的分析和研究,并参考中国的行政地域特点,采用地名词分级思想,将所有的地名词进行层级划分,并结合目前互联网的词库资源和主流的数据存储技术,得出了一个全新的地名知识库。(2)提出了一种改进的面向地名知识库的双向最大匹配算法。本文根据中文地址组成形式,基于中文地名知识库,在正向和反向最大匹配的算法逻辑中加入了空间判断和等级识别模型,改进了地址切分算法的流程,简化了地名匹配逻辑,从而提升了地址切分准确度。(3)提出了城市编码和等级信息直接同地名词一起进行缓存的策略。结合主流的服务器缓存技术,将城市编码和等级信息直接同地名词一起进行缓存,并利用哈希表技术快速读取地名知识库,完善了分词引擎的实现流程,大大提高的分词引擎性能。(4)设计并实现了一个中文地址分词引擎。实验表明,全国地名词库初始化时间在35秒,中文地址分词引擎的准确率和可用率分别为96.5%和99.99%。达到了实用化的分词引擎水平。
其他文献
目的探讨地塞米松不同给药途径用于急性虹膜睫状体炎的临床疗效及安全性。方法选取急性虹膜睫状体炎患者110例,根据用药途径的不同将患者分为两组,对照组55例,以地塞米松静脉
政府部门投资项目的运行也是我国社会经济发展的重要环节,近些年国家针对政府部门投资项目运行进行了有机的调整,项目代建制就是最新的政府投资项目运行政策。政府投资的项目
以我国传统秧歌为蓝本进行创编的健身秧歌,不仅承载着我国传统体育文化的历史,同时也在一定程度上发挥了自身的健身功效,因此,对于健身秧歌的研究,是推进我国全民健身战略的重要
电子商务在我国蓬勃发展,其趋势已经处于市场爆发期,撬动了整个零售业且正以相当快的速度蔓延至金融、物流、制造等其他行业。伴随着行业的飞速发展,电子商务企业的扩张规模
随着世界经济的迅猛发展,各国经济相互依存度不断提高,世界各国贸易得以进一步的发展,国际贸易理论也随着贸易的深化得以不断的发展。伴随着国际化进程的进行,我们逐渐发现到,企业
贸易条件是衡量国际贸易交换比例的主要指标,即一国出口每单位商品所能换取的进口商品数量。从20世纪50年代Prebisch和Singer提出“普雷维什—辛格”命题以来,很多经济学家开始
介绍了焊接结构阀门焊接工艺评定中制取加工试样,测定焊接接头和报告焊接工艺评定的实施过程,对比和分析了国内外阀门焊接工艺评定相关标准的工艺参数、焊接工艺评定的程序编
我国已进入了存量规划时代,规划师的工作也随之面临转型与挑战。文章以广州市白云湖地区规划为例,阐述存量规划时代地区规划师的主要工作及重要作用,并进一步论述地区规划师
"未来的文盲不再是不识字的人,而是没有学会学习的人",人要学习,更要善于学习,即要学会选择、掌握和运用正确的学习方法,以提高学习效率.本文就如何"学习"高中地理作一粗略的
自从上世纪90年代国家体委颁布关于运动员交流的规定开始,各个省份就开始运动员的引进工作,并且以提升中华人民共和国全国运动会(以下简称全运会)成绩为目的引进优秀运动员的数量