一种面向大规模社会信息网络的多层社区发现算法

来源 :第二届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:linnber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区发现旨在挖掘社会信息网络的社区结构,是社会计算及其相关研究的基础.随着交互式社会信息网络规模的快速增长,传统的社区发现算法难以满足大规模网络的可扩展分析需求.多层社区发现算法如PMetis、Graclus等虽然可以分析包含数百万节点规模的网络,但是小于1/2的粗化缩减比率以及社会信息网络的幂律分布特性极大地制约着该类算法的性能优势.本文提出了一种基于三角形内点同一社区性粗化策略的多层社区发现算法TMLCD.TMLCD不仅以大于1/2的粗化缩减比率加快了大规模社会信息网络的粗化过程,而且从基本拓扑结构上保持了初始网络的社区效应,提高了社区发现精度.基于真实网络如Youtube、Orkut等的实验结果表明,TMLCD的计算精度、内存占用以及运行时间均优于目前典型的多层社区发现算法,适用于富含三角形的社会信息网络分析.
其他文献
谷胱甘肽(GSH)是由谷氨酸、半胱氨酸和甘氨酸形成的三肽化合物,是主要的蛋白巯基源在大多数哺乳动物组织内.基于近红外的荧光探针能检测细胞内的GSH含量,并且可以对活体进行无伤害的成像将会成为一种有工具于探索疾病的机制.本文通过结合双光子纳米颗粒和二氧化锰纳米片提出一种新颖的荧光探针用于细胞中甚至组织中的谷胱甘肽的检测。双光子纳米颗粒是一种新颖的纳米颗粒具有很大的双光子吸收界面。双光子成像具有很好的
腹泻型贝类毒素(Diarrhetic ShellfishPoisons, DSP)是海洋微生物产生的一类脂溶性的次生代谢产物。经食物链累积,容易在贝类中聚集,性质较为稳定,一般的烹饪加热不能使其破坏。人体误食后会产生以腹泻、呕吐为主要特征的中毒症状,长期积累可以致畸及致癌。冈田酸(Okadaic Acid, OA)是DSP中的主要活性成分。本文借助纳米金在弱还原剂存在的条件下能够特异性催化银离子还
本实验首次利用-共轭效应,将1-芘丁酸(PBA)与导电高聚物聚3,4-乙撑二氧噻吩(PEDOT)相连,并通过Zr4+与羧基形成的配位键将羟基铁卟啉(Hematin)与PBA相连接,将Hematin固定于电极上,构建出一种制备过程简单的新型传感器(GCE/PEDOT/PBA/Hematin).为了检验这种仿生传感器的稳定性和灵敏度,我们通过循环伏安法(CV)、交流阻抗法(EIS)和时间电流曲线法(I
生物传感和生物芯片已在医疗、环保、食品和医药等方面显示了极其重要的作用,但制造高性能的生物传感和生物芯片实现具体有很大的挑战性。纳米科学和技术的进展极大地促进了研发高性能的生物传感和生物芯片。我们根据传感的需要,应用纳米技术从物理方面调控纳米结构,合成了一、二、三和多层等不同的独特的妈咪结构;同时,利用复合,修饰和独特的化反应改变化学组成,改善传感过程中的热力学和动力学的限制,从而从纳米尺度发展了
会议
全球数据量爆炸式增长,单节点重复数据删除系统已不能满足性能需求,集群重复数据删除系统应运而生.如何提高数据传输效率、节约网络带宽和增强系统的可扩展性,成为当前面临的严峻挑战.提出一种基于历史数据信息的一致性哈希路由策略,通过在本地缓存热点数据块指纹,数据路由前先在本地索引,可以大大减少索引消息请求数量,并且采用一致性哈希的路由策略,有效的缓解集群系统中动态扩展存储节点导致的全局数据重删率急剧恶化与
针对时空轨迹大数据广域网分布存储条件下的群体行为模式挖掘问题,本文基于MapReduce和ACO (Ant Colony Optimization)算法提出可在广域网环境分布并行增量执行的DPIA(Distributed&Parallel&Incremental ACO)聚类方法.该方法聚类过程分为历史全量阶段和若干周期增量阶段分段持续执行,通过每个周期的增量数据聚类持续修正已有聚类结果,通过Ma
大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂、可扩展性差等方面.为了解决此问题,评估面向大数据应用的高通量众核体系结构的性能与功耗,本文提出了面向大数据应用的并行模拟框架——BDSim.该框架基于组件化思想,将功能组件与框架服务单元组成并行功能单元,并可
针对语义知识库构建方式和语义表达模型研究中的不足,在已有工作的基础上,提出一种新的语义知识模型:动态知识网络,在详细阐述模型组成要素的基础上,进一步研究了该模型的知识表示方法.在语义知识模型的指导下,面向开放的网络数据资源,研究了动态知识网络的半自动构建方法,并且以360百科和新闻网页数据为基础进行了实验验证,结果表明所提模型和方法能够有效支持动态知识网络的构建。
随着大数据时代的到来,隐私问题备受关注,用户一方面希望获得新鲜和低延迟的查询结果,另一方面又希望对查询信息进行隐私保护,为此本文提出了一种基于内存的分布式隐私流查询系统,其中,查询可以通过Paillier密码系统进行加密.该系统在shared-nothing架构下支持水平扩展,实现了在内存中对流数据进行分片的并行查询以及基于位图索引的压缩存储.实验证明了该系统的有效性.
Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase不支持非主键索引,导致HBase的数据查询效率较低,难以满足数据实时/准实时查询需求.本文研究提出了一种基于分层式HBase非主键索引的查询模型和方法,包括基于HBase的持久性索引、基于分布式内存的索引热点数据缓存技术和高效的热度累积缓存替换策略,并实现于分层式索引和查询系统HiBase.在