基于两种改进的聚类算法对新浪微博用户信息的研究

被引量 : 6次 | 上传用户:jtgdz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来新浪微博迅猛发展,已经逐渐成为人们生活中不可或缺的一部分。新浪微博作为一个信息传播平台,它使得人们能够及时的获取第一手信息,同时作为一个社交平台,它让人们可以通过一种崭新的方式与他人交往。在新浪微博中,用户具有核心地位,无论是为了在微博平台上进行广告营销,还是对微博信息进行舆情监测,对不同微博用户群体的信息进行提炼都是至关重要的一步本文以微博用户信息数据作为研究对象,以用户的粉丝数、微博数、关注数、互粉数以及博龄数的取值作为依据,对微博用户群体进行聚类划分。首先将数据可视化从而全面了解了数据的分布特征,然后应用标准化方法对数据进行了预处理。由于数据量很大(21481条用户信息),且由于大于三的维度从而难以对数据的聚类趋势进行直观的评估。对此,本文采用了改进后的K-Means算法和TwoStep算法对数据进行聚类分析。改进的K-Means算法是将传统的K-Means算法与C-H指数相结合,从而可以自行的选择最终聚类个数,TwoStep算法则将传统的系统聚类算法与Birch算法相结合,进而解决了传统系统聚类算法扩展性较差的问题,但在计算过程中需要人为的选取阀值T。通过这两种改进后的方法最终得到了两种不同的聚类结果,在对各个类别进行分析后本文对不同的类别予以命名最后,本文应用三种不同的度量指数来对聚类结果质量进行评价,结果显示改进后K-Means算法的聚类结果质量较好。其原因可能是TwoStep算法中的预聚类造成了样本信息量的损失以及人为选取的阀值T不是最佳值。
其他文献
资本成本是现代财务理论中复杂程度最高同时应用范围最广的一个概念。从微观角度看,资本成本直接影响着企业价值,并贯穿于整个企业的财务政策制定过程,是企业投资、融资、股利分
随着现代科学技术的蓬勃发展,新材料及新技术在我国照明系统中得到了广泛的应用,新材料及新技术的应用不仅有效降低了照明成本,推动了绿色照明的普及和发展,同时对于我国能源
动态资本结构理论认为,公司存在目标资本结构。但由于调整成本的存在,使得公司向目标资本结构调整时只能做部分调整,因此公司的资本结构经常偏离其目标资本结构。本文构建了资本
<正>资料与方法一、一般资料:我科自2007年4月~2008年5月收治门诊或住院术后切口感染患者80例,男26例,女54例,年龄8~65岁,平均年龄38岁,汉族23例,维吾尔族30例,回族16例,哈族11
零售业对国民经济的先导作用日益突显,对国民经济的贡献逐步增大,但是自2012年起,零售业的销售增幅开始低于10%,进入低速增长期,过去靠开店扩张、规模增大获得的粗放发展将被集约
中国《公务员法》的颁布实施,标志着中国现代公务员制度初步建立,但是以后的建设任务仍很艰巨。第二次世界大战之后发达国家现代公务员制度不断进行调整改革,在招考任用、分
本文旨在运用文献法和访谈法,对当前社会工作专业学生的就业现状与择业行为进行研究,应用科尔曼理性选择理论从行动者自身、资源控制、行动目的、社会规范以及非理性因素这五
随着社会经济的发展,国内外工商、金融业对商务文件传递的时间和效率要求越来越高,邮政业已经不能满足,因此,为民营快递企业提供了市场机遇,它们迅速兴起,很快填补了这一市场
1"可乐生火"实验CO2与Na2O2的反应属于教材要求学生掌握的重要知识点,课本中只给出了反应原理,并未进行演示实验.笔者以魔术的形式将该实验展示给学生,激发学生的好奇心和探
会计师事务所的发展历史可以说是一部合并的历史。我国注册会计师行业自1998年脱钩改制以来,经历了无数的合并。随着国际经济一体化进程的推进和我国经济的发展,我国审计市场需