基于MB-LDA模型的微博主题挖掘

来源 :第28届中国数据库学术会议 | 被引量 : 0次 | 上传用户:Zeshawn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着微博的日趋流行,Twitter等微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变。在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模。提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本关联关系,来辅助进行微博的主题挖掘。采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题。此外,模型还能推广到许多带有社交网络性质的文本中。在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘。
其他文献
<正> 缺血性卒中是引起死亡和永久性严重功能缺损的主要原因。大多数病例是脑血管闭塞所致,即由来自心脏或供应脑的大血管中的栓子栓塞所致。实验研究表明,血管闭塞后数分钟
依托信息化发展背景,以现代企业管理制度为理论支撑,结合物流企业自身特点对物流企业财务管理存在的问题进行深刻解读,进而提出了构建物流企业信息化财务管理体系的策略建议
译者的主体性主要表现在译者的选择性、译者的理解和表达以及译者的创造性叛逆这三方面。本文通过古典诗歌的两个具体译例进行分析,说明译者主体性在诗歌翻译中所发挥的作用,
“五四“劳工文学是中国工业文学的初澜。从人道主义到劳工神圣,到平民主义,到社会主义,是“五四”时期劳工文学思潮发展的脉络;从普泛的人,到劳工,到底层工人,再到作为阶级的工人,是
光谱分析检测技术和光谱仪器经历了近百年的发展,在现代科学实验、生物研究、医学及医药研究、工农业生产、国防、天文观测等领域得到了极其广泛的应用。随着现代科学技术的
生精煎治疗男性不育症78例广东开平市第二人民医院刘新蔼1990年1月~1996年5月间自拟生精煎加减治疗78例男性不育症患者。其中25~30岁42例,31~40岁30例,41岁以上6例。婚龄时间2~12年,婚后均未采取任何避孕措施,女方妇检
民族性、目的性和当代性是民法制度设计的根基,财产权观念不仅是一种单纯的法律确认,同时也是一种伦理升华和哲学判断。财产权制度的产生与流变既是人类理性思维的结果,而且
基于微阵列数据的肿瘤诊断方法有望在不久的将来成为临床医学上一种快速且有效的分子层肿瘤诊断方法,但由于微阵列数据存在高维小样本的特点,因而对传统的分类方法提出了挑战
现有的P2P系统信任评价模型正面临着两种恶意节点的攻击行为——策略性欺骗和不诚实推荐,严重影响了模型计算节点信任评价的准确性和有效性.针对现有模型存在的不足,提出了一
服饰与学生日常生活密切相关,为学生价值观念教育和行为引导提供了广阔的平台,也为校园文化建设提供了良好的契机。从服饰文化的精神内涵和校园服饰的教育功能入手,挖掘服饰