论文部分内容阅读
随着互联网和社交媒体的快速发展,网络舆情信息与现实交易行为越来越呈现高度融合的趋势。互联网从一个简单的信息发布技术平台演变成为社会化媒体的主要载体,成为一个交互式的信息发布、共享、交流与协作的社会化网络,极大的改变了人们观察社会和经济的方式。随着参与性不断提高,人们不再是被动的接受知识,而是主动地发表各种观点和评论,这些观点和评论不仅可以实时表达人们的真实想法,而且还可以通过影响受众者的心理进而改变现实世界的活动。目前,研究学者主要利用网络舆情信息中的关注度指标来映射现实交易行为,而对于网络舆情信息和交易行为中隐含的内容则表达不足,再加上学科理论交叉与信息技术的限制,使得网络舆情信息与现实交易行为的映射关系虽被屡屡提及却鲜有实证研究。为了解决上述问题,本文以金融市场为背景选取现实的股票交易行为数据以及与股票相关联的网络舆情信息作为研究对象,分别基于网络舆情信息的事件影响力,现实交易行为的时间序列分割和异常发现来研究网络舆情信息与现实交易行为的映射关系。一方面,首先在网络舆情信息中发现事件并在各个特定领域进行追踪,接着对事件按照时间粒度划分,并给出事件影响力的测度方法,把事件影响力转化为时间序列形式,最终在基于事件影响力的基础上来发现网络舆情信息与现实交易行为之间的映射关系;另一方面,对现实交易行为中的时间序列进行分割和异常获取,在基于时序分割与异常的基础上来发现现实交易行为与网络舆情信息的映射关系,并通过与网络舆情信息的映射关系来发现交易行为产生这些规律和异常的原因。论文研究的主要内容和创新点如下:(1)针对在特定领域进行事件追踪会带来大量噪声这一问题,提出了一种基于带权的最大二分图匹配方法来追踪特定领域中的事件,该方法利用关联规则来限制部分关键词的权重,提高了在特定领域追踪事件时的抗噪音能力。(2)在事件影响力的基础上研究网络舆情信息与现实交易行为的映射关系。提出了一种结合事件热度和参与事件传播的用户影响力来测度事件影响力的方法。该方法避免了由虚假热度或者垃圾用户导致的不真实的影响力结果,并把事件影响力按时间粒度划分为时间序列形式,并在基于影响力的基础上利用时间相关性和空间一致性构建和分析网络舆情信息与现实交易行为的映射关系。(3)在时间序列分割的基础上研究现实交易行为与网络舆情信息的映射关系。提出一种依据上下文关系的边相似度方法来分割现实交易行为的时间序列。该算法克服传统模式发现与模式匹配中的机械性,对现实交易行为产生的时间序列有更强的适应能力。实验结果表明算法降低了孤立地考虑模式匹配导致的失效划分,在嘈杂环境下具有更好的抗干扰性,更准确的找出网络舆情信息与现实交易行为的映射关系。(4)在时间序列异常的基础上研究现实交易行为与网络舆情信息的映射关系。针对现实交易行为的时变性与不可预测性,提出一种基于自适应区间的异常捕捉方法。该方法依据数据本身特点,用分离度度量数据之间的关系,并基于分离度构建自适应区间,接着利用自适应区间过滤出异常数据,最终在基于时间序列异常的基础上构建和分析网络舆情信息与现实交易行为的映射关系。实验结果表明本文方法不仅能够有效的发现时间序列的异常,而且可以有效的找到网络舆情信息与现实交易行为的映射关系,帮助用户发现产生异常的原因。