论文部分内容阅读
互联网是公开信息的重要来源,随着信息技术的快速发展,越来越多的人通过互联网获取其感兴趣的信息。民主选举是世界各国领导人的一种博弈方式,胜利者可以获得领导权。利益集团通常以经济利益为基础,是民主选举中历史最悠久、分布最广的群体,其不断成长并进入政治进程中,社会矛盾更加复杂,利益集团的影响力已经渗透到经济、政治和社会生活的方方面面,了解利益集团的发展变化情况有助于掌握经济政治等的发展趋势,理解社会变化的深层次诱因,为应对变化做出决策提供相应信息。本文针对如何准确的发现利益集团并了解其动态的发展变化这一问题,进行了以下三个方面的研究。针对利益集团数据集构建的问题,采用多节点分布式爬虫对政府网站、网络数据库和公开简历等数据源进行大规模爬取,获取了近两年议员推举的法案信息和对议员提供政治献金的贡献者信息,对非结构化数据进行数据清洗等工作构建利益集团发现所需数据集。针对网络中利益集团的发现问题,提出了基于贡献者-法案主题知识库的利益集团发现算法(Interest Group Discovery Algorithm based on Contributor-Subject Base,C-SBIGDA)。该算法利用政治献金贡献者的行业信息和法案主题信息构建贡献者-法案主题知识库,通过知识库获取贡献者对应的法案主题作为贡献者的属性特征对贡献者进行分类实现利益集团的发现。经过在人工标注数据集上的实验,表明该算法对利益集团发现的有效性。针对动态利益集团的发现问题,提出了基于动态网络的利益集团发现算法(Interest Group Discovery Algorithm based on Dynamic Network,DNIGDA)。该算法利用政治献金贡献者提供政治献金的时间属性信息和议员任期时间构建时序动态网络,该网络包含了每个节点的出现与消亡时间。将C-SBIGDA算法融入时序动态网络中实现对利益集团的动态发现,在已构建的数据集上进行实验得到动态的利益集团并进行结果分析。针对利益集团的动态发现问题,本文研究了群体发现方法和动态网络相关技术,提出了一种基于动态网络的利益集团发现算法,达到了在时序动态网络上发现利益集团的效果。