基于hadoop的微博文本分类及商业词抽取

被引量 : 0次 | 上传用户:xunzhaogancao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的飞速发展,微博已经普及成为国内的一大新型媒体。微博用户基数的迅速膨胀,加上信息的逐级传播,与之俱来的问题是微博数据规模达到空前水平。面对微博服务迅猛发展中所产生的海量文本数据,如何准确有效的从中定向发现并获取所需要的有较高商业价值的资料和信息,进而提高广告精准度成为各微博平台数据研究处理的一大目标,本文将对如何有效的从海量微博文本数据中发现和抽取商业关键词进行研究。为了更有针对性的进行商业关键词抽取,首先对海量微博数据进行了文本分类,一方面降低了单次数据处理的规模,另一方面对同类数据进行处理研究将更有针对性。再对各个类别中文本的关键词结合互联网搜索引擎中的搜索权值进行调权,有效提高了微博文本中商业关键词抽取的精准度。由于微博文本数据具有总体数量多、单条简短及内容随意性大等特性,在利用传统分类方法及商业信息提取算法对其进行处理时存在一定的局限性。本文考虑到单条微博文本信息简短包含的有效特征少,且内容比较口语化的特性,从相似词及搭配词方面对文本的特征词进行了扩展,尽量降低特征丢失的可能性;结合微博文本数量多及内容随意性大的特性,提出了一种基于特征词类别分散性及分散程度的微博文本分类方法。考虑到微博自有的转发数、评论数及海量规模等因素,本文对传统的TF-IDF算法进行了相关改进,利用hadoop云计算平台并以单个用户的所有微博信息作为计算单元应用改进的TF-IDF算法,再综合词语在互联网搜索引擎中的搜索权值进行调权,实现了从海量数据中对具有商业价值关键词的有效抽取。实验表明,该微博分类方法在微博信息的分类中取得了较好的效果,在微博数据处理应用场景中,综合了改进的TF-IDF权重及词语互联网搜索权重的商业关键词抽取算法,具有较好的适用性及商业效果。而结合了云计算平台后,一定程度上提高了数据处理效率,使得对海量微博数据集上的处理变得可行有效。
其他文献
随着财务精细化管理的推进,财务报销信息化越来越被重视。以某企业实际需求为例,通过分析该企业当前报销模式的缺陷和由此产生的各种问题,提出了网络报销系统对这些问题的解
世界上的动物和人类都是在空间中生存和发展,无论是日常生活还是科学活动,都应具备一定的空间知识,人类为了更好地生活和学习必须要去探索和掌握空间的基本结构,空间认知能力是人
<正> 一、概述美苏两个超级大国为了争霸全球,,一直致力于发展和研制短波单边带通信设备,并把它作为霸占全球的侵略工具之一。我们遵照伟大领袖毛主席关于""知己知彼,百战不
总结了汽车制造业所用大型机械压力机的主要故障,对故障的原因进行了分析,并提出改进措施,最后指出了影响压力机寿命的主要因素。
21世纪教育的核心问题是培养和造就富有创新精神和创新能力的高素质人才,而强烈的问题意识和主体的探究活动是造就创新型人才的重要条件。对于数学教育而言,要着眼于学生的发展
运用条件性情绪反应干预法对2名考试焦虑来访者进行14天实验干预,每天一次,每次2小时。采用汉密尔顿焦虑量表(HAMA)得分的变化评估干预的有效性。干预结束后,来访者1、来访者2
随着新课改如火如荼地开展,高中语文课堂对师生互动提出了更高的要求,更加注重教师与学生之间的平等对话、交流、分享、互动。在新课改背景下,高中语文课堂师生互动发生了很大的
泉州市是福建省第一大龙眼产区,龙眼主要分布于南安市、洛江区、泉港区和安溪县等。通过梳理泉州龙眼栽培现状,针对当地龙眼产业存在的问题,提出相应的对策。
目的采用Osstell分析仪评估骨挤压术对ITI和3I种植体初期稳定性的影响。方法选取上颌后牙Ⅳ类骨质的牙列缺损患者,所有患者行颌骨CBCT扫描,确定种植位点,植入ITI和3I种植体共
20世纪90年代末,经历了金融危机之后的泰国电影积极寻求变革,实现了从复兴到辉煌的关键转折。随着电影体系不断完善,电影类型不断丰富,泰国成为继中日韩印之后又一个具有代表性的