面向设施选址的数据资源搜索和预处理系统

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yxhly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球定位系统(GPS)移动设备的普及,设施的布置问题受到了广泛关注。海量的用户位置签到数据对于设施选址研究工作的开展有着积极的意义,传统的目标数据资源如地理信息数据、用户轨迹数据等,通常都是通过线下人工收集或者通过目标对象携带GPS设备采集获取的,然而这些数据资源获取形式往往暴露出获取数据成本高、工作量大、效率和时效性低等问题。针对目前数据资源获取中存在的问题和互联网上数据资源与日俱增的特点,本文设计开发了面向设施选址的数据资源搜索和预处理系统,该系统不仅能够实时的为设施选址工作提供数据资源,同时也支持位置签到数据的可视化展示。面向设施选址的数据资源搜索和预处理系统从宏观上主要分为数据资源搜索和数据预处理两部分。在数据资源搜索部分,本文通过研究设施选址所需要的数据资源类型和各大网络平台数据类型特点,最终选定用户数量多,实时性好,影响力大的微博作为本系统数据采集平台,同时针对微博应用程序接口对数据资源获取的限制,本文设计开发了一种基于微博的聚焦网络爬虫。该爬虫首先根据用户输入的位置循环获取该位置区域内详细的位置地点,然后依次获取每个位置区域中用户的详细信息,达到获取该区域中所有用户数据资源的目的,同时本文通过构建Cookies池,IP代理池和模拟登陆等手段成功的绕开了微博反爬限制采集到了用户签到数据资源。为了满足本系统对数据采集性能的要求,本文进一步的对网络爬虫进行分布式部署突破了单机数据采集性能的限制。在数据预处理部分,对于用户签到数据,本文首先通过定义数学模型整合了用户轨迹,然后针对用户签到位置数据中存在的问题进行数据清洗,并对部分不在路网上的数据进行了地图匹配计算。对于用户博文,本文首先通过数据清洗,扩充词库,中文分词,去停用词等一系列手段对文本数据进行处理,然后采用改进的K-Means算法对用户博文数据进行聚类分析,最后通过统计分析研究不同类别之间的区别,分别为各个类群利用合理的短文本标签进行描述,成功构建了用户画像。除了数据资源搜索和预处理功能,本文还集成了轨迹数据可视化和设施选址两部分,在数据可视化部分该系统提供了热度图,轨迹图和道路图三种数据展示方案。在设施选址部分,本系统集成了Place-One、Place-k和Incremental-One三种普适性的选址方案,提升了用户在使用系统过程中的体验。经过系统测试本文中设计的数据资源搜索与预处理系统可以实时有效地获取到用户数据资源和处理数据,同时与传统方式相比该系统具有数据实时性好体量大、系统开发成本低、操作简单、功能丰富等特点。
其他文献
每年全球有50余万例头颈部癌症新增患者,其中绝大多数的病理类型为鳞状细胞癌。晚期头颈部鳞状细胞癌常发生颈部淋巴结转移。当前,虽然包括手术、化疗、放射治疗和靶向治疗为
课堂观察是汉语国际教育硕士生参与课堂教学实践的重要方法,对其专业发展具有重大影响,是汉语国际教育硕士生将理论知识与教学实践相连接的桥梁。本文针对汉语国际教育硕士生课堂观察能力的现状以及应该如何改善进行研究,主要通过调查问卷和访谈法,对汉语国际教育硕士的课堂观察能力进行调查,汉语国际教育硕士生在课堂观察后发生了怎样的变化,课堂观察对其的重要意义,探寻汉语国际教育硕士现阶段存在的问题并针对现存问题提出
近几十年来,热电材料得到了深入研究,热电器件在制冷和发电领域也得到了广泛应用。随着无线传感器和通信技术在电子、医疗、工业等领域的兴起,人们对无线设备性能的要求也越来越高。热电薄膜由于体积小,灵活性强等特点,在制造微型传感器、微功率源和一些小型设备等方面具有良好的应用前景。热电薄膜性能的提高对热电器件的生产与应用具有重要意义。1.衬底的选择能够在很大程度上影响热电薄膜的性能。在之前的工作中,我们在S
随着我国经济的持续发展,城市化的不断推进,人口数量的不断增长,对地面交通的需求也日益增大。随着交通事业朝着更加舒适、便捷、安全和智能化发展的同时,各类公共交通运行造成的环境振动影响也越来越突出。本文以列车运行引起建筑物楼面振动的隔振措施为出发点,从理论推导和数值模拟两个方面开展研究。在单层单自由度隔振系统理论研究的基础上,建立了多点激励下的四自由度多维隔振板动力学模型,从理论上对该隔振板系统的水平
林火是北方针叶林的重要生态因子,直接影响火烧迹地物种多样性及功能多样性,进而影响森林群落的演替。以牙克石地区不同火烧强度(轻、中和重度火烧)下自然恢复12、20和31年的兴安落叶松群落为研究对象,在群落尺度上分析火烧迹地叶片功能性状、物种多样性和功能多样性的变化规律,旨在为研究区火烧迹地植被恢复和生态系统保护提供理论依据。得出以下主要结果:随火烧强度增加,叶组织密度、叶碳含量和叶磷含量总体上呈增大
室内定位是近十几年来最热门且最具有研究意义的课题之一。在众多的室内定位方法中,基于WiFi指纹的室内定位方法和基于惯性传感器的行人航位推算(Pedestrian Dead Reckoning,PDR)算法脱颖而出。这两种定位方法具有成本低,易于实现等优点,因此在室内定位领域受到广泛的关注,具有非常重要的研究价值。但是,利用WiFi指纹进行定位时,由于WiFi信号本身的特征,以及室内定位环境的复杂性
近年来,航空通信在无线移动通信领域中愈发受到重视,而航空信道建模又在其中占有十分重要的因素。航空通信的场景复杂多变,因此迫切需要分场景地对航空信道进行精确合理的建模。本文针对飞行器通信环境的不同,将航空信道分为空对天场景、空对空场景和空对地场景三类,分别建立了适合相应场景的信道模型。完成工作如下:(1)针对空对天通信场景,建立了一种基于GNSS反射信号的三维信道模型。该模型根据延迟和多普勒频移的分
汉语助词“了”是留学生在汉语习得过程中需要掌握的语法现象之一,在日常学习和生活中助词“了”出现的频率也很高,是留学生在汉语习得时容易出现的语法偏误之一,也是对外汉语语法教学部分的重难点。韩国留学生习得汉语助词“了”时产生的偏误现象主要有五种类型,分别是遗漏、误加、误代、错序和混淆,其中遗漏和误加在偏误类型中占的比例最高。产生这些偏误的原因主要是由于助词“了”自身语法规则和用法相对复杂、学习者母语负
随着我国金融市场的快速发展,金融交易量在屡创新高,同时金融交易中问题频出。金融服务者销售金融商品时通常以欺骗、诱导、虚假宣传等方式推介,违反了金融服务者缔约说明义
如今,大多数企业都使用信息系统来进行业务过程管理。其中,很大一部分的信息系统,都会使用工作流模型描述任务关系并维护整个业务过程。伴随着业务过程的节点数量增加以及结