基于中文地址类信息的分词处理

来源 :沈阳航空工业学院学报 | 被引量 : 0次 | 上传用户:zenghui_yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库中脏数据处理的热点问题是识别与消除相似重复记录。针对中文地址类重复信息的处理,提出了一种基于特征字符的分词策略,在建立了包含分词规则的元数据库基础上,描述了基于特征字符的分词算法。实验结果表明分词所用的时间随着数据集的增长变化不大。因此,将分词方法应用于中文地址类重复记录的检测,也不会增加检测的时间。
其他文献
目的探讨长春西汀对突发性耳聋患者血液流变学和血小板相关指标的影响。方法选择2012年1月至2015年12月收治的突发性耳聋患者54例,按照随机数字法分为对照组和观察组,每组27
近年来,随着旋转机械的发展,动平衡技术得到越来越广泛的应用,尤其是在发动机曲轴上,提出了更高的要求。曲轴作为结构特殊的刚性转子,在运行中总是与连杆、活塞(滑块)一起构
中国与加拿大的经贸合作在过去的二三十年中一直平缓发展,2005年随着双方高层领导人的互访以及一系列合作协议的签订,两国经贸合作进入了一个新时期。本文着重从双边贸易和双
世界各国在经济社会发展进程中都会存有一系列的"三农"难题,其中农村剩佘劳动力的转移流动是关乎一切的共同问题。农村劳动力向非农产业和城镇转移’是世界各国工业化力的转移
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目前,我国传统乡村建筑面临遭破坏和可能消亡的困境,在一成不变又缺乏个性、样式单一的水泥建筑面前,我国传统乡村建筑要想找到出路,就必须依靠某些手段进行复兴。根据我国传
教育的主要目的在于传道、受业、解惑,主要是提升学生的综合能力和文化素养,在大学教育阶段开展人文教育是十分必要的,尤其在理科专业中开展人文教育有助于提升学生的思想意
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
编码-提取匹配的观点指出,提取线索与编码情境的匹配程度决定回忆成绩;但辨别过程的观点认为,除了编码-提取匹配外,还需考虑线索的负荷.通过两个实验,本研究考察上述观点能否