移动平台下基于K-means的租房信息聚类算法研究与实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:tzhole
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的发展,加快了数据的产生速度;促进了云计算、大数据等数据处理技术的进步。为解决通用搜索引擎应对海量数据检索时返回信息量大、查询精度低等弊病,各类垂直搜索引擎网站迅速发展。安居客作为专业性的房源类信息搜索网站,提供大量的房源信息。租房类信息是各类房源信息中数据量最大、更新最快的一类房源信息。面对大量的房源类信息,研发人员一直研究如何提高服务质量和用户访问量。通过统计用户搜索行为,对于大量分页返回的结果,用户只对前几页感兴趣。将大量的房源信息,快速全面的呈现在用户面前是一个值得研究的课题。移动平台下利用地图服务,将租房信息散布在地图上有助于利用位置服务针对性浏览房源信息。地图呈现的屏幕是有限的,尤其是移动端受屏幕大小制约,单条呈现所能呈现的数据量更受到制约。探索解决出租房源密度与地图比例之间的问题,提出将租房类信息进行聚类显示的思想。聚类之前,对存储在服务端的数据进行预处理,通过对元数据进行清洗、集成、变换、归约四个步骤的依次处理,减小移动端数据处理的计算量。详细分析租房类信息在各个阶段处理的过程,并在最大500万条的数据上进行数据预处理的实验分析。移动端利用服务端传来的数据进行聚类,研究移动平台下中心点与K值选择相关问题,并提出基于地理位置的K-means聚类算法步骤;通过分析地图不同缩放比下聚类属性选择,提出了采用基于K-means改进的K-prototypes的算法进行对多维混合属性进行聚类;同时为减少计算与数据传输,当前地图位置移动时,采用新数据部分聚类的思想进行再聚类。最后,分析了算法的实验性能。初步投放市场的效果也表明该功能的上线在移动端提高了33%的浏览量。
其他文献
当今社会,计算机软件与人们的生活息息相关,人们对软件质量的要求也越来越高。软件在运行时发生失效,如何实现快速、高效的、准确的软件故障定位仍是学术界和工业界研究的关
随着计算机网络技术的迅猛发展,网络时间隐通道受到越来越多的关注与研究。网络时间隐通道以数据包可携带的时间变量(time variable)作为信息的载体,通信双方通过改变/观察双方
近年来,随着数据收集与存储技术的提高,人们收集到的数据量呈指数速度增长,传统的离群点检测方法在处理大规模数据集时已开始表现出极大的局限性。大规模数据集具有数据数量大、
社交网络起源较早,伴随无线定位技术的成熟、移动终端设备的普及以及移动互联网的发展,移动社交网络迅速崛起。空间定位技术的发展使得基于位置服务(Location-based service,LBS
随着遥感应用领域及范围的日益扩大,遥感产品生产的规模也越来越大,为了解决遥感产品生产的专业化、规模化、快速化等问题,需要设计构建可读性强,且能被计算机接受的遥感产品生产
在信息检索技术随着互联网的迅猛发展而日趋成熟的同时,搜索引擎也已经成为人们日常生活中越来越不可缺少的重要工具和手段。传统的信息检索是在基于关键词匹配的基础上,机械
随着数据存储技术的快速发展,从大量数据中发现潜在的、有用的信息成为巨大的挑战。特别是随着数据流广泛呈现在各个应用领域,对数据流的挖掘成为了目前数据挖掘研究领域的一个
随着移动互联网的快速发展以及Android操作系统的持续更新,运行在Android系统上的应用程序也越来越复杂和庞大,使得Android手机软件开发者必须使用基于该平台的第三方库来快
智能交通系统平台(ITS Platform)的在21世纪的发展中用到了很多先进的理论和技术,是下一代交通系统的发展方向。使用信息化技术采集、处理、管理交通信息是系统中的重要部分,其中
随着计算机视觉、计算机图形学等技术在各个领域的广泛应用,以及智能化模拟技术的快速发展,三维重建相关技术已是众多研究学者的研究热点。点云重建过程是基于多视图三维重建