基于N-Gram和动态滑动窗口的改进余弦相似度算法研究

来源 :成都大学学报:自然科学版 | 被引量 : 0次 | 上传用户:bbboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余弦相似度算法.首先通过计算每条数据的N-Gram值,并对数据进行相似度排序,然后定义初始滑动窗口,其窗口值根据N-Gram值的方差动态调整,最后在每个窗口中根据相似度与阀值判断相似数据.实验结果表明,改进的余弦相似度算法在运行速度上有大幅度提高,数据清洗准确率也得到提升,且该算法适用于海量数据的情形.
其他文献
对于保修期内的医疗设备,其维修服务主要由保修公司负责。本文指出在保修期内医院临床工程师,应从那些方面发挥在设备维修管理中的积极作用。
本文以管理的对象属性和态势分析为切入点,阐述医用耗材名称特征复杂性与管理滞后的矛盾,这是当前医院医用耗材管理难的症结所在。本文运用系统管理观点分析医用耗材名称系统管
一台发动机在任何工况下都能提供相应合适浓度的可燃混合气,并充分燃烧.则这台发动机的动力性、经济笥、排放等都将是最好的.