论文部分内容阅读
数据驱动决策已经在许多行业不断扩大、加深。在电影产业方面,通过对海量影视数据的分析,应用系统能够有效地为用户推送其可能喜欢的作品。最近,一些影片制作公司已经尝试运用数据分析的结果来进行选角和剧本的设计,推出的作品大获成功。影视数据含有丰富的信息,但目前针对其的挖掘分析工作往往只关注特定的信息,在一定程度上影响了结果的完整性。另一方面,异构信息网络是一种包含多种类型节点,同时节点间存在多种类型边的信息网络,非常适合用于对包含有丰富信息的数据建模。近年来,基于异构信息网络的挖掘分析问题受到了广泛的研究,相关实验表明算法在考虑了异构信息后获得了更好的效果。在本文的工作中,影视数据中包含的信息通过异构信息网络进行组织,并通过网络表示学习和文本表示学习算法对其中的关键信息进行有效的表示。在此基础上,本文提出了一套查询驱动的挖掘分析方案,能够高效地完成多种不同的分析任务。论文工作包括:1)基于异构信息网络的概念构建影视信息网络。为了对影视数据中的信息进行有效的组织,将其看作是由多类节点(影片,影人等)及节点间的多种关系(影人主演影片,影人执导影片等)构成的异构信息网络。从特定的数据源(豆瓣电影网)获取原始数据后,根据定义好的网络模式(network schema),从原始数据中抽取信息并构建影视信息网络。为了对影视信息网络进行有效的管理和存储,提出SRT(Source-Relationship-Target)图模型作为描述异构信息网络的基本单位,并基于此设计存储和管理方案。2)异构信息网络的表示学习和一种标签关联的短文本表示学习算法。通过网络表示学习得到节点的低维特征向量可以方便网络结构数据的分析与挖掘。不同于同构信息网络的场景,针对异构信息网络的表示学习需要考虑节点和边的类型信息。为了有效地利用异构信息,本文借助元路径来描述节点的接近度,基于此设计了面向异构网络的节点表示学习算法。另一方面,在短文本表示学习中,为了缓解通过关键词符号来表示影片简介信息会造成信息表示的稀疏性这一问题,本文设计了一种高效的标签关联的短文本表示学习算法,实验证明算法能生成高质量的文本表示向量。3)查询驱动的异构信息网络分析框架。在使用异构信息网络对数据进行组织后,大多数影视数据挖掘任务可以被拆解成一系列的查询操作予以完成。基于此,本文设计了一套针对异构信息网络的查询驱动分析方案来高效地完成分析任务。整个方案包括:查询描述图,基于SRT图的计算任务调度,以及基本计算操作。在该方案下,不同类型任务在异构信息网络的框架下均通过查询驱动的方式予以处理。4)豆瓣电影数据分析系统原型实现和实验。综合前面各部分的研究经验和成果,同时充分利用开源资源,设计并实现了一个豆瓣电影数据分析原型系统。原型系统以分层的方式构建,每一层都实现一种特定的抽象来为上层提供所需的服务。最后,原型系统提供了两种用户接口,分别为query形式的查询分析以及分析性的可视影视信息检索。通过相关的实验证明,系统能有效地发掘影视数据中潜藏的重要信息,并能服务于多种分析场景。