论文部分内容阅读
近年来,随着移动通讯技术和海量数据的采集存储技术飞速发展,移动运营商积累的数据空前增长。这些数据中包含着关于用户行为习惯的信息,其中用户间使用通话,短信等方式进行的联系构成了移动用户的社交网络。挖掘社交网络包含的信息可以帮助运营商制定营销策略,提升服务质量。
针对移动用户话单,短信等海量数据的特点,本文提出了用于分析移动用户社交网络结构的HPB算法和用于社区发现的CCMC算法,并实现了应用HPB和CCMC的社区发现系统。主要工作包括:
(1)提出了适用于海量移动数据的网络半径估计算法HPB(Hop Plot byBit-mask)。相比同类算法,HPB的准确率较高,受图的拓扑结构和数据量的影响很小,需要较少的时间和空间开销。
(2)提出了适用于海量移动数据的社区发现算法CCMC(Concentric-CircleModel of Community detection)。CCMC将一个社区描述成一组同心圆,中心的圆由社区中最有代表性的用户组成。比起传统的社区发现算法CCMC的优势在于能处理带权图,能处理社区彼此重合的情况且方便控制发现社区的粒度。
(3)在北京大学数据库实验室研制的数据挖掘系统MobileMiner基础上,利用HPB和CCMC算法实现了用户社区分析子系统。
实验证明,本文提出的算法能够有效处理移动用户产生的海量数据。用户社区分析子系统可以方便地用于移动用户行为分析且具有较好的扩展性。