论文部分内容阅读
邮件数据中蕴含着大量潜在有用的信息,邮件通联关系网络可以映射到社会网络,邮件通联关系可以间接反映人与人之间的关系;邮件通信内容可以体现邮箱用户的兴趣、关注的话题等。如何利用邮件中的有用信息,发现邮件通联关系网络的重要节点和社团是目前邮件数据挖掘领域中重要的研究方向。本文对邮件通联关系网络进行了网络构建、话题识别、重要节点发现和社团发现等方面的研究,主要工作包括以下几个方面:1.邮件通联关系网络属性描述。对邮件数据进行分析,提取邮件通信实体间的通信关系构建邮件通联关系网络,对相关属性进行描述。其中提出了一种基于改进K-means的聚类技术自动识别话题的算法,对结合主题字段和正文内容表示的邮件进行聚类,得到节点的话题属性。通过计算F值进行比较,改进算法的聚类效果比传统的K-means算法提高了16.2%。2.重要节点发现。论文针对邮件通联关系网络的特性提出两个新的重要性度量指标:改进的聚集系数指标和EmailRank指标。针对单一指标评估具有一定程度片面性的考虑,采用综合评估方法发现重要节点。在公开Enron邮件数据集上进行实验,证明综合评估方法优于单指标及基于图熵理论发现重要节点的方法。3.以重要节点为中心的子网抽取。提出四种基于结构的子网抽取方法,通过分析和实验验证:基于边权值的子网抽取方法结合边连接的紧密程度以及层次关系,抽取的子网结构紧密。4.对子网进行基于内容的社团发现。提出一种基于边内容聚类的社团发现算法,对结构紧密的邮件子网进行社团发现,在人工标注的数据集上验证该社团算法的效果,并在Enron邮件数据集进行实验,得到结构和内容均与重要节点关系紧密的社团。5.构建邮件通联关系网络挖掘分析原型系统。对重要节点发现、子网抽取和社团发现等模块进行设计和实现。最后,对本文工作进行了总结,并对邮件通联关系网络分析和挖掘进行了展望,提出了下一步的研究方向和构想。