论文部分内容阅读
通过传感器采集移动轨迹数据进行分析和处理,仍旧是当前道路交通状况监测的主要方式。然而,随着社交媒体数据量的迅速增长,以微博为主的社交媒体中蕴涵了丰富的交通状态信息,若能融合社交媒体数据与移动轨迹数据,则可以在交通事件探测时互为补充,从多种视角探测和佐证道路交通状况。本论文提出一个融合轨迹数据和微博文本进行交通事件探测的框架,即根据时空窗口增量构建时空关键词索引,结合轨迹数据和微博文本内容来探测和佐证即时发生的交通事件,提高智慧城市建设水平。
为了准确识别和交通相关的微博文本,本文提出了一种多主题半监督的LDA主题模型,通过主题模型进行文本的语义分析,引入与交通事件相关的微博标签提高训练精度,改进原有的LDA模型并进行增量训练,通过调整模型参数以适应海量实时的微博文本流,从中分类出交通相关文本。对抽取的微博文本流进行时间窗口划分,并基于时间窗口在内存中建立一个带有时间因子的空间关键词索引,即希尔伯特信息检索时间树(HilbertRetrievinginformationtime-Tree,HRIT-Tree),将带有位置信息的交通事件文本插入索引,并根据移动轨迹数据流探测到的拥塞范围,通过HRIT-Tree查询得到与拥塞道路相关的交通事件文本。
本文的主要贡献是:1:在社交媒体交通状况文本抽取模块,将微博中带有交通状况话题标签(以“#”开头)的文本记为标记文本,并作为监督项,与未标记文本进行不同范围的主题空间采样,通过缩小采样范围对LDA模型进行改进的半监督训练。2:引入衰减因子,在改进的半监督LDA模型上进行增量学习,无需检索历史数据,提高模型的训练效率,以达到对海量文本的实时分类处理。3:在轨迹文本数据融合模块,本文提出根据时间窗口在内存中建立希尔伯特信息检索时间树(HilbertRetrievinginformationtime-Tree,HRIT-Tree),这是一种将时间因子引入基于HilbertR树的空间关键词索引,减少了以R树为主的空间关键词索引在数据空间分布不规则时造成的区域重叠率,并通过时间因子在查询时过滤失效的交通事件内容。理论分析和实验表明,融合轨迹数据和微博文本内容可以更加准确地探测路网上发生的交通事件,为交通决策和预警提供有力支持。
为了准确识别和交通相关的微博文本,本文提出了一种多主题半监督的LDA主题模型,通过主题模型进行文本的语义分析,引入与交通事件相关的微博标签提高训练精度,改进原有的LDA模型并进行增量训练,通过调整模型参数以适应海量实时的微博文本流,从中分类出交通相关文本。对抽取的微博文本流进行时间窗口划分,并基于时间窗口在内存中建立一个带有时间因子的空间关键词索引,即希尔伯特信息检索时间树(HilbertRetrievinginformationtime-Tree,HRIT-Tree),将带有位置信息的交通事件文本插入索引,并根据移动轨迹数据流探测到的拥塞范围,通过HRIT-Tree查询得到与拥塞道路相关的交通事件文本。
本文的主要贡献是:1:在社交媒体交通状况文本抽取模块,将微博中带有交通状况话题标签(以“#”开头)的文本记为标记文本,并作为监督项,与未标记文本进行不同范围的主题空间采样,通过缩小采样范围对LDA模型进行改进的半监督训练。2:引入衰减因子,在改进的半监督LDA模型上进行增量学习,无需检索历史数据,提高模型的训练效率,以达到对海量文本的实时分类处理。3:在轨迹文本数据融合模块,本文提出根据时间窗口在内存中建立希尔伯特信息检索时间树(HilbertRetrievinginformationtime-Tree,HRIT-Tree),这是一种将时间因子引入基于HilbertR树的空间关键词索引,减少了以R树为主的空间关键词索引在数据空间分布不规则时造成的区域重叠率,并通过时间因子在查询时过滤失效的交通事件内容。理论分析和实验表明,融合轨迹数据和微博文本内容可以更加准确地探测路网上发生的交通事件,为交通决策和预警提供有力支持。