微博自动分类方法研究及应用

被引量 : 0次 | 上传用户:HUANGKAO2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是近几年兴起的一种网络交流与信息分享平台,中国微博网民注册用户已经超过3亿,由于微博自身的传播性质以及信息内容产生的速度,每个用户都越来越需要应对信息泛滥的考验,同时每个用户微博主页上的信息杂乱无章,平台本身没有设置为微博进行自动分类的功能,使用户不能第一时间查看自己最关注的、最感兴趣的微博。本文将对微博文本进行分类研究,并在此基础上,结合微博用户兴趣对微博分类进行应用分析。首先通过对国内外文本分类领域的研究现状和研究成果进行分析,总结微博分类与文本分类两者之间异同点,并针对这些异同点进行对比分析,从而找出解决微博文本分类中存在问题的方法。然后通过对大量的微博数据进行观察分析,归纳总结微博的类型、文本结构以及微博编辑的语言特点,并在此基础上对微博文本的相关要素进行定义及完成对微博数据模型的构建,接下来设计了微博数据的收集与存储策略,并最终确定微博文本的分词方法。其次通过分析四大门户网站内类别的分布情况,基于四大门户网站内的频道栏目信息以及新浪微博平台内的类别层次结构对微博文本的类别体系进行定义与说明,在此类别体系的基础上利用网页文本构建相应类别的类别特征模式库,并根据特征库内的结构及词汇特点,设计特征库调整算法用以剔除不同特征库内的重复词及不相关的词汇,以使每个特征库内包含的特征词与类别名称一致。最后通过提出一种微博文本特征词与特征库内特征词相匹配的分类算法对微博进行自动类别标识,利用微博数据来验证分类算法的有效性和可行性,并在分类算法的基础上结合用户使用微博的兴趣来对微博分类进行应用性研究。本文的研究成果将会为用户创造巨大的应用价值,并会促使微博平台背后的企业积极地更新技术手段以更好的服务用户和社会。
其他文献
著作权中的精神权利是指作者因创作作品而享有的有关身份和名誉等方面的专有权利。作为著作权制度的核心内容之一,精神权利已为包括中国在内的大多数国家的立法所确认和保护。
近年来,双语转换个体差异成为语言转换及其代价的影响的一个研究热点。已有的研究发现,第二语言熟练程度和获得年龄是两个重要影响因素。熟练双语者与早期高熟练双语者的语言转
网上购物在我国正呈方兴未艾之势,网上购物在给消费者带来方便快捷的同时,也带来了很多的问题,比如:网络欺诈、财产权、隐私的泄露、网上购物合同履行不充分等,这些问题极大
巴塔耶一直试图从自己的普遍经济学的理论出发,建构出一套世界的普遍历史。本文首先对巴塔耶普遍经济学的含义和法则进行了解读,然后对其在此背景下所描述的各种社会形态进行
分析了不同浓度Cd胁迫对水稻萌发和幼苗生长的影响。结果表明,Cd胁迫对发芽势、发芽率、最长根长、苗高、单株鲜重和单株干重的影响程度不同。在0~10 mg/kg,Cd胁迫对水稻种子
<正>本文探讨的主要对象是公安机关综合性工作总结的写作,如半年或全年工作总结(以下简称“工作总结”).工作总结是公安机关使用频率颇高一种公务文书.毛泽东说过:“人类总得
"一带一路"背景下,我国社会经济实现了快速发展,由此推进了我国经济国际贸易化。同时,我国跨境电子商务物流也实现了较快发展,并发展成为我国外贸转型升级的一项重要战略。然
智能技术的发展与应用使得物联网成为了近年来的热门词汇,智能图书馆与智慧图书馆也走进了我们的现实世界,成为了近几年图书馆学术界的一大研究热点。大数据时代的来临,将为
近些年服务业迅猛发展,其经营也从原个体户形式向连锁式规模化发展,顾客是其生存与发展的根本,服务业与制造业相比与顾客有着更直接的接触,且客户群体也更为庞大,研究表明,企业维持
IEC 61850是国际电工委员会TC57制定的关于变电站自动化通信网络和系统的最新国际标准,当前主要采用制造报文规范作为应用层的具体通信协议,从根本上实现了智能电子设备间的