基于机器学习的非话题性博文过滤技术

来源 :第十一届中国通信学会学术年会 | 被引量 : 0次 | 上传用户:jtfcyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着在线社交网络的高速发展,在线社交网络分析成为当今研究热点.Twitter 作为全球最具影响力的微博平台,吸引了大量学者进行研究.然而,Twitter 中包含了大量的噪声,为了提高各种社交网络分析系统的性能,作为个性化信息推荐、地震预测、舆情监控等系统的前期工作,本文旨在识别出Twitter 中的非话题性博文,过滤Twitter 中的噪声.本文从博文的社交、词汇、文本3个方面抽取特征,运用机器学习技术,训练分类器用以识别非话题性博文.本系统的准确率达到了86%,召回率达到了87%,有效地提高了个性化信息推荐、地震预测、舆情监控等系统的运行效果.
其他文献
  目前射频识别[RFID(Radio Frequency Identification)]技术已经深入了我们的生活,成为了我们日常生活不可或缺的一部分。随着RFID 技术的广泛运用,人们对RFID 标签的要求越
  本文研究了TD-LTE 系统中不同干扰的监控、定位及处理方法,通过对不同的干扰处理方法进行了分析和验证,将干扰问题分为硬件问题、系统内干扰、系统外干扰,根据不同的干扰类
  针对单一通信网络进行室内定位的精度偏低和易受到衰落影响的问题,本文提出了一种室内定位方案,该方案提出利用现有的多个通信网络实现室内定位。该方案基于现有的WLAN,G
会议
从2006年开始,当电视栏目剧以一种主流的面孔出现在大众面前时,各家电视台便逐渐从电视剧的争夺中抽身而出,开始了栏目剧的比拼。这些选自本土题材、反映现实生活,表现方式上
随着通信产业的急速发展,通信电源的可靠性和稳定性变得愈加重要.基于干接点上报基站配套设备运行状态的方式已不能够满足基站精细化维护的需求.本文通过介绍基站动环监控系
Spred(Sprout-related Ena/vasodilator stimulated phosphoprote in homology-1(EVH-1)domain)蛋白家族与Sprouty相关,包括3个主要结构域:N端结构域(EVH-1区),中央c-kit结合区(KB
第三代稀土合金NdFeB永磁材料由于具有优异的磁性能、良好的机械加工特性和相对低廉的价格,在许多领域得到广泛应用。但是NdFeB合金的化学稳定性差,在使用环境中容易发生氧化,而
伴随着因特网和信息产业的快速发展,微博已经成为一种新型的信息发布和传播的社交媒介,自然微博也为命名实体抽取提供了一个新的载体.本文针对微博数据的命名实体识别由于博
SQL注入攻击是常见的网络黑客攻击.文章分析了SQL注入攻击的原理、过程和种类,针对性地提出了有效预防SQL注入攻击的方法,即在客户端和服务器端进行两级检测,安全配置Web服务器
  为了提高无线频谱利用率,增加信息吞吐量,在理论分析无线信道模型及偶极子天线衰减特性的基础上,提出了一种低复杂度且高性能的自干扰信号消除方案,其中涉及到无线信号的