论文部分内容阅读
个人行为数据正在改变人们的生活和工作方式。个人行为数据体量大、格式多样,来源广泛,从中挖掘有价值的信息极为困难。可视化查询是探索式数据分析的重要工具,在个人行为数据分析方面,具有先天优势。然而个人行为数据的可视化查询是存储和计算双密集型应用,存在多方面的挑战:缺少成熟的可视化查询模型;缺乏有效的数据组织方法;数据查询困难;缺少灵活的交互方式;需要新颖直观的可视化设计。本文总结相关工作并提出可视化查询认知模型,将可视化技术与数据查询技术相结合,对个人行为数据开展探索式分析。本文从社交媒体空间的社交行为分析、局部路段的行车行为分析以及城市空间的出行行为分析三个方面由简到繁地介绍可视化查询方法的具体应用。大量的实验、案例以及领域专家的反馈验证了可视化查询在分析个人行为数据上的有效性。具体而言,本文主要研究内容和贡献概括为以下几点:提出语义感知的社交行为可视化查询方法。本文利用社交行为时间上的语义相关性抽取数据中隐含的话题和命名实体集合,并对二者分类以增强语义。在此基础上,构建层次语义图模型,将社交数据呈现的复杂图结构简化为层次结构,同时为可视化查询提供多重索引。本文设计了基于多重分类导航的交互界面便于查询者分析社交行为,通过分裂环形图编码的多重语义数据。对推特数据的案例分析和用户调查表明,分裂环形图视觉特征明显,有利于发现社交行为。提出基于可视化查询的微观行车行为分析方法。本文实现了基于出租车轨迹数据的可视化查询系统,分析真实的行车行为,由此推断道路交通状况。为了支持可视化查询,本文还设计了笔划式交互工具以及协同式多视图。特别地,本文提出了一种新颖的基于道路的查询模型,方便领域专家交互式执行分析任务。查询模型的核心是双向链接哈希索引TripHash,该索引能保证大规模轨迹数据的实时查询。对超过30GB的真实轨迹数据的案例分析表明,本文的可视化查询方法能有效帮助领域专家发现局部路段的交通状况。-提出面向多源数据的可视化查询平台,分析城市人群出行模式。平台基于统一的数据抽象,消除不同数据源之间的差异。对于数据存储,本文讨论了四种数据划分方法便于分布式存储海量多源数据。为支持多源出行数据的可视化查询,本文设计了一种自适应的交互界面,允许任意选择时空区间。本文提供了两类交互查询工具用于输入时空查询条件,并且实现了展现出行人群静态和动态空间分布的可视化方法。为了保证查询的实时性,本文基于MapReduce计算框架对查询过程进行了优化。结合出租车轨迹数据和手机通话记录,本文分析了城市人群的出行规律,如聚散模式。