论文部分内容阅读
在当今互联网的大潮下,网络给人们带来了巨大的经济效益和便利。越来越多的广告商通过判断网络用户的位置来推送精确的广告,同样网络安全人员也通过定位IP的位置来确定网络故障的所在,及时排除网络故障。因此对于IP地址的实体地理位置定位技术的研究就显的愈发的重要,广大学者和研究人员也从未停止对IP定位技术的研究。随着IP定位技术的发展,互联网上也出现了一些优秀的IP定位产品。但这些产品都有自己的局限性,比如有些只是针对特定国家的定位比较准确、收费、没有优秀的接口供广大用户去使用等。因此本文先是综述了IP定位技术发展初期的一些基于注册信息的IP定位技术,其次介绍了现在通过测量网络间的延时、模拟网络拓扑等方法来定位的基于测量的IP定位技术。然后引出本课题研究和实现的主要内容,一个集成的IP定位系统。所谓集成的IP定位系统就是将国内外优秀的IP定位数据库汇集到一起,附加抓取一些WHOIS和DNS.LOC来提炼定位信息,最终形成一个相对全面的IP定位数据库。有了数据源后通过冲突消除算法和爬虫对定位信息库的每日更新使得数据库更加的全面,通过类SVD算法和高效IP查询算法的研究与实现来使定位结果更加准确和高效。主要做如下三方面的研究工作。第一研究和实现了IP定位系统的核心数据源的获取工作。包括分布式爬虫的架构和实现,突破相关网站安全性措施的方法,以及不同数据源“冲突”数据的解决方法,有效提升数据库的全面性。第二研究和解决了大量工P查询效率低下的问题,阐述了通过高频加时间相结合的缓存策略、基于HASH的查询算法和基于FODO算法的分布式分片策略来提升IP查询效率。第三研究和实现了类SVD算法通过置信度和准确度来实现最佳定位结果的生成算法,有效提升定位结果的准确性。