一种基于核心词相似度的重复数据检测架构建

来源 :信息系统工程 | 被引量 : 0次 | 上传用户:lyh555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建.通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求和得出相似度,以相似度阈值来判别是否重复.实验表明,该框架可有效用于重复数据检测,具有工程实用性.
其他文献
油菜的花色一般为黄色,心叶色一般为绿色,但也出现了花色为金黄、桔红、乳白和纯白等不同颜色及心叶色为紫色的甘蓝型油菜资源。花色与心叶色作为指示性状,具有表现稳定、易
全国大学生数学竞赛是高水平本科赛事之一,影响力逐年提升,迄今为止已成功举办十届,是学生展现能力素质、教师交流教学体会的平台,同时也极大地促进了《高等数学》课程的教学
辅酶Q10(CoQ10)是人体普遍缺少并具有重要生理生化功能的活性物质,具有清除自由基能力,对于心血管疾病具有一定的治疗功能。本文研究了大豆辅酶Q10的提取技术及富辅酶Q10大豆种质资源,结果如下:1.采用分子模拟方法预测了辅酶Q10的分子性质及其功能。建立了辅酶Q10在真空状态下300K时的优势构型并通过分子体系中电荷分布的计算,推测出辅酶Q10分子的活性位点主要是两个醌基。2.大豆籽粒中辅酶Q
蓖麻是一种性型表达较为复杂的作物,其花的性分化不仅受到遗传控制,还受到外界条件的影响。本试验以法国蓖麻核雌性两型系CSR6和其纯合雌性系I3、I5、I15、I17、I24为材料,对它
采用超高产(紧凑型)与普通高产(平展型)不同株型的玉米为材料,通过田间试验,解析了超高产玉米群体冠层结构特征及冠层内不同层次的叶片的光合特性,为保证玉米高产提供理论依据。