一种消除孤立点的微博热点话题发现方法

来源 :计算机应用与软件 | 被引量 : 33次 | 上传用户:maygrass
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博具有数量多、字数少、话题广泛等特点,导致数据中孤立点较多,对微博热点话题聚类算法产生不利影响,为此,提出一种消除孤立点的微博热点话题发现方法。首先消除数据集中的孤立点,然后采用CURE(Clustering Using Representatives)算法对剩余有聚类价值的数据进行聚类,最后通过实例验证算法的有效性。结果表明,相对于对比聚类算法,该算法降低聚类结果对孤立点的敏感度,提高了微博热点话题发现的准确性,并提高了算法的运行效率,更适合应用于大规模的微博热点话题发现。
其他文献
针对KLEIN密码算法提出一种可行的差分故障分析方法,研究KLEIN密码对差分故障分析的安全性。经多次分析尝试,选择分别向16个字节处各导入1比特随机故障,相当于每次引入16个随机故障。通过在KLEIN密码第12轮S盒置换操作之前对各字节引入1比特随机故障,并构造了S盒差分区分器来搜索差分值,最终恢复64比特密钥。实验结果表明,平均2.73次诱导此类故障即可恢复主密钥,同时大大降低了搜索空间。
全国政协委员、财政部科研所所长贾康提交提案建议,出台物业税,要通过听证会形式对各方面意见进行沟通。
防止机密数据流出网络是网络运营商面临的一个重要问题,随着云计算技术的发展,这一问题显得更加复杂。当前的数据防泄漏方案主要依赖在外传数据中进行关键词通用搜索,导致数据流控制不够精细,虚警率较高。鉴于此,首先设计一种基于白名单的数据防泄漏(DLP)架构,在此基础上,提出一种基于文件指纹和Bloom滤波器的数据泄露检测算法。该算法通过使用动态规划来计算最优检测位置,最大限度地降低了内存开销,并支持高速部
研究了水对植物纤维水泥复合板性能的影响。选择合适的水分可以提高板材静弯曲强度,减小板材变形。
龙建辉1983年从事工会工作,在企业工会摸爬滚打了30年。担任湖南友谊阿波罗商业股份有限公司工会主席以来,她带领工会多次被评为省、市先进工会工作集体;她本人也多次被评为长沙
目前对不一致不完备决策系统的粗糙集属性分配约简研究较少,研究不一致不完备决策系统的分配约简更具有实际应用价值。基于此,提出一种基于冲突对象集的不一致不完备决策系统分配约简方法。通过定义冲突对象集的概念,给出计算核属性集和属性重要性的方法;在此基础上,给出求解不一致不完备决策系统分配约简的算法。理论分析和实例结果表明,该方法显著降低了分配约简求解的空间复杂度,更加适合大规模数据库。
十三 中年夫妻一轮太阳高挂在湘江上空。江水湛蓝澄澈。
葫芦岛移动分公司工会坚持"增强企业活力,服务好员工、服务好企业,建家就是建企业"的原则,不断深化建家工作,夯实建家基础,丰富建家内涵,为企业的持续健康发展提供有力保障,先
微博作为发展最迅猛的信息传播平台,每天都会产生大量数据,迅速增长的数据对数据处理提出了新的要求。针对微博数据特点,对VSM模型进行改进,并在MapReduce平台上,设计微博热点话题发现并行模糊C均值(HTD-PFCM)算法。实验结果表明,基于改进VSM模型的HTD-PFCM算法具有良好的加速比,并且能够更高效地处理微博数据,发现微博热点话题。
随着智能手机等电子产品的普及,多点触摸屏应用越来越广泛。但是因触摸屏表面较光滑,使得盲人不能通过触觉获得屏幕的信息,造成其输入文字困难。提出采用多点触摸联机手写识别盲文技术的汉字输入法。该方法不仅解决了盲人能利用多点触摸屏输入文字信息,也能应用于明眼人的触摸屏联机手写盲文识别进行汉字输入,其书写汉字速度远高于现有的触摸屏的手写输入法。