【摘 要】
:
在使用分布式内存计算的机器学习算法进行情感分析时,其训练效率还亟需提升,同时使用单个机器学习算法的准确率也不是很高,因此提出了一种基于Spark的集成算法来进行情感分析
【基金项目】
:
浙江省自然科学基金资助项目(LZ14F020001)
论文部分内容阅读
在使用分布式内存计算的机器学习算法进行情感分析时,其训练效率还亟需提升,同时使用单个机器学习算法的准确率也不是很高,因此提出了一种基于Spark的集成算法来进行情感分析。在进行情感分析过程中通过Spark分布式内存计算,来实现算法的并行操作,有利于机器学习算法处理大数据集。Spark自带的机器学习库,使开发过程变得更加简单和快速。采用改进后的TF-IDF特征提取算法,以AdaBoost算法集成决策树和SVM,降低了单个算法的偶然性,提高了整个结果的准确性。实验结果表明:Spark分布式计算提高了效率,集成
其他文献
一、前言应国家测绘局测绘标准化研究所“关于进行标准化专题研究委托协议书”的要求,我们完成了有关“特高精度水准测量方法”的研究项目。此专题研究之目的在于,在采用当前最先进的设备和最严密的方法的前提下,探讨最高精度的高程传递的具体方法,为精密工程测量规范中确定高程测量方法和精度指标提供依据。
超声乳化术治疗白内障具有切口小、术后反应轻、愈合快、视力恢复快及手术时间短等优点,由于技术发展成熟,为门诊患者提高了技术保证[1]。我院对40例老年性白内障行白内障超
【正】自1994年重庆电视台推出《雾都夜话》,栏目剧在中国电视领域已经发展了将近20年,收视依然热火。什么魅力令它经久不衰?是它不断的自我完善和适应社会发展的能力。而它
【正】南宁市青少年活动中心芭蕾舞班有位失聪学员,她叫黄楚雯,今年12岁。2006年夏,中国残疾人艺术团表演的《千手观音》让黄楚雯的母亲张月平感到震撼,她决定让女儿有一技之
目的:探讨细菌性阴道炎(BV)快速检测在临床的应用。方法:对2004年1月至2007年10月在我院门诊就诊的患者1 748例,年龄20岁~68岁,采用生理盐水直接涂片法观察清洁度、真菌、滴虫
【正】4月20日早上8点02分,四川省雅安市芦山县发生里氏7.0级地震,我和同事莫毅在地震发生后六小时,就跟随广西地震局紧急救援队赶赴芦山,成为最早深入震区的广西媒体记者,也
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
长期以来,在流行病学与临床研究中发现糖耐量异常,超重或肥胖,血脂紊乱和高血压等临床表现可同时发生在同一个体,因其涉及一系列心血管疾病的危险因素,Nonnan Kaplan将其称为“死