【摘 要】
:
为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题
【基金项目】
:
国家自然科学基金(61762009)
论文部分内容阅读
为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的短文本进行建模,获得话题词;然后针对传统K-Means算法本身的缺陷,提出加权K-Means算法实现微博话题发现;最后实验验证本文的方法,实验结果表明,BTM和加权K-Means方法解决了微博数据高维度和稀疏性的问题,提高了热点话题发现的准确性和有效性。
其他文献
以脂肪酸和胺为原料,合成了一系列咪唑啉衍生物缓蚀剂,优选出两种与丁炔二醇缓蚀剂复配后,在70℃、15%的盐酸中,腐蚀速率小于4 g/(m2·h),达到了石油行业标准.研制的复配
思维学是思维科学的基础科学。本文考察了钱学森关于逻辑思维、形象思维、灵感思维、社会思维、创造思维、辩证思维和大成智慧等思维科学的内涵、特点以及它们之间的辩证关系
《语文课程标准》指出,“学习古代诗词,有意识地在积累、感悟和运用中提高自己的欣赏品味和审美情趣”。对于初中生,在古诗词学习上也提出了明确的要求,能够“帅选并提取信息
<正>说七月的莲花山如同人间仙境一点也不为过,清晨烟雾缭绕的山林间鸟语花香:各种柳莺在树枝间跳跃,白顶溪鸲和红尾水鸲在水边嬉戏,在树干上来回攀爬,灰头灰雀和各种朱雀则
本文设计了一个基于定时器/计数器芯片8253、可编程并行接口芯片8255、可编程中断控制器芯片8259的模拟交通灯系统。该系统可实现东西方向和南北方向交通灯和倒计时显示,并用
在2015年的政府工作报告中,"互联网+"计划被正式提及,这也意味着"互联网+"成为我国经济社会发展的重要战略。而在未来一段时间,互联网最关注的行业是教育行业。高职教育作为教育的
吴起油田地处鄂尔多斯盆地伊陕斜坡,主力油层是侏罗系延安组延8、9、10,属低压高渗复杂油气藏,地层渗透率达到100 m D-300 m D,油藏埋深1 500 m左右,井底温度低(45℃)。针对该
目的通过比较老年与非老年脑卒中患者在日常活动、康复治疗过程及康复疗效上的差异,分析老年脑卒中患者的康复特点。方法选取80例脑卒中患者,根据年龄分为老年组(n=40)和非老年
随着智能移动终端和社交网络应用的普及,越来越多的人愿意通过社交网络平台进行交流和表达自己的情感,因此产生了大量含有地理位置、文本内容等多种信息的用户生成数据,为大