【摘 要】
:
使用朴素贝叶斯分类算法,结合Spark内存计算框架,对用户观看视频及次数信息进行分析,建立用户性别和年龄区间的分类模型;然后利用特征项的权重优化模型,考虑到每个特征项在各个类
论文部分内容阅读
使用朴素贝叶斯分类算法,结合Spark内存计算框架,对用户观看视频及次数信息进行分析,建立用户性别和年龄区间的分类模型;然后利用特征项的权重优化模型,考虑到每个特征项在各个类别中的权重对分类结果的影响,提出了一种基于特征项与类别间相关性的TFC—IDFC权重计算方法,并与传统的TF—IDF权重计算方法进行比较,通过正确率和F1值两个指标,证明考虑到特征项与类别的相关性所提出的TFC—IDFC权重使得分类模型的分类能力更好。
其他文献
SOLO分类评价法是一种以等级描述为基本特征的质性评价方法。本文试图将SOLO分类法应用于英语阅读评价之中,通过对学生阅读时思维结构的复杂程度进行检测,以达到区分学生不同
群体恐慌心理是一种对社会生活有严重影响的大众心理。本文从目前非典型肺炎流行造成的群体恐慌入手 ,从大众传播、流言、群体压力及集群行为等角度分析群体恐慌心理的成因 ,
在信息化的时代大背景之下,一些工作的实施都与信心化相挂钩。行政事业单位的财政管理是工作中的重点项目。该单位中的财政管理接触的工作都是国家规划中的项目疏忽不得,马虎
为研究北京城区PM2.5中有机碳(OC)和元素碳(EC)的浓度水平、季节变化特征与主要来源,于2015年4月至2016年3月在北京西三环交通带附近采集4个季节PM2.5有效样品95组,利用热光反射
初中语文教学是引领学生迈进文学殿堂,领略文学领域无限风光的开端.要让学生们能感受到文学的魅力,并被深深地吸引住,阅读是关键.阅读教学课是初中语文课堂教学的基本课型,它
自改革开放之后,科学技术的发展便处在欣欣向荣的趋势下,液晶显示已经得到了广泛普及,且在日益优化、完善状态中。随着技术水平的提高,液晶电视其价格也逐渐的降低,如今家家
交强险这个名词出自2006年7月1日正式实施的《机动车交通事故责任强制保险条例》,是机动车交通事故责任强制保险的简称。它是指由保险公司对被保险机动车发生道路交通事故造
现代服装设计的创新不是对旧有服装元素的机械复制,如何正确理解现代服装设计与传统文化的关系,值得人们深入研究。本文选取了三个较为成熟的中国本土服装品牌,总结其品牌风
<正>亲爱的郭老师:您好!我是影视传媒技术专业毕业生,今年7月起,在一家传媒公司工作。我读书时专业成绩不错,得过好几次学校奖学金;在专业实践方面,我和同学一起做项目,得过
<正>1923年6月12日至20日,中国共产党第三次全国代表大会在广州召开。出席这次大会的代表30多人,代表全国420名党员。大会通过了陈独秀《在中国共产党第三次全国代表大会上的