基于中文地址类信息的分词处理

来源 :沈阳航空工业学院学报 | 被引量 : 0次 | 上传用户：zenghui_yan

【摘要】

：

数据仓库中脏数据处理的热点问题是识别与消除相似重复记录。针对中文地址类重复信息的处理,提出了一种基于特征字符的分词策略,在建立了包含分词规则的元数据库基础上,描述

【作者】

：

刘哲夏秀峰周福才

【机构】

：

沈阳师范大学计算中心,沈阳航空工业学院计算机学院,东北大学信息科学与工程学院

【出处】

：

沈阳航空工业学院学报

【发表日期】

：

2008年4期

【关键词】

：

相似重复记录中文地址特征字符分词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据仓库中脏数据处理的热点问题是识别与消除相似重复记录。针对中文地址类重复信息的处理,提出了一种基于特征字符的分词策略,在建立了包含分词规则的元数据库基础上,描述了基于特征字符的分词算法。实验结果表明分词所用的时间随着数据集的增长变化不大。因此,将分词方法应用于中文地址类重复记录的检测,也不会增加检测的时间。

其他文献

长春西汀对突发性耳聋患者血小板及血液流变学相关指标的影响

目的探讨长春西汀对突发性耳聋患者血液流变学和血小板相关指标的影响。方法选择2012年1月至2015年12月收治的突发性耳聋患者54例,按照随机数字法分为对照组和观察组,每组27

期刊

长春西汀突发性耳聋血液流变学血小板

通用汽油发动机曲轴动平衡测试与自动去重系统的研制

近年来,随着旋转机械的发展,动平衡技术得到越来越广泛的应用,尤其是在发动机曲轴上,提出了更高的要求。曲轴作为结构特殊的刚性转子,在运行中总是与连杆、活塞(滑块)一起构

学位

动平衡测试自动去重通用汽油发动机曲轴数据处理

中加经贸合作现状和趋势研究

中国与加拿大的经贸合作在过去的二三十年中一直平缓发展,2005年随着双方高层领导人的互访以及一系列合作协议的签订,两国经贸合作进入了一个新时期。本文着重从双边贸易和双

学位

中国加拿大贸易投资趋势

改革开放以来中国共产党的农村剩余劳动力转移政策研究

世界各国在经济社会发展进程中都会存有一系列的"三农"难题，其中农村剩佘劳动力的转移流动是关乎一切的共同问题。农村劳动力向非农产业和城镇转移’是世界各国工业化力的转移

学位

农村剩余劳动力转移政策中国共产党改革开放以来

初中语文教学生活化探究

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

期刊

初中语文生活化探究

中国传统乡村建筑的复兴——艺术修复乡村

目前,我国传统乡村建筑面临遭破坏和可能消亡的困境,在一成不变又缺乏个性、样式单一的水泥建筑面前,我国传统乡村建筑要想找到出路,就必须依靠某些手段进行复兴。根据我国传

期刊

乡村建筑建筑复兴艺术修复乡村文化

浅谈中风的辩证施护

期刊

中风辩证施护

大学物理教学中引入人文教育的思考

教育的主要目的在于传道、受业、解惑,主要是提升学生的综合能力和文化素养,在大学教育阶段开展人文教育是十分必要的,尤其在理科专业中开展人文教育有助于提升学生的思想意

期刊

大学物理教学人文教育融合策略

实现Mellin变换的一种新方法

期刊

全息图全息透镜光学系统Mellin

编码–提取匹配和线索负荷对部分线索效应的影响

编码-提取匹配的观点指出,提取线索与编码情境的匹配程度决定回忆成绩;但辨别过程的观点认为,除了编码-提取匹配外,还需考虑线索的负荷.通过两个实验,本研究考察上述观点能否

期刊

部分线索记忆提取编码–提取匹配线索负荷辨别

基于中文地址类信息的分词处理

与本文相关的学术论文