【摘 要】
:
目前,对于传统有害弹幕的处理方式主要是设置关键字和人工审查这两种方式,在效率和准确率上很难得到保障。于是,本文的主要内容是将机器学习中自动文本分类的方法运用到弹幕的分类处理上,以达到高效的识别出有害弹幕的目的。本文以从斗鱼直播爬取的弹幕文本为数据集,通过人工的方式将其分为有害弹幕和正常弹幕,再对其进行预处理,将得到的文本集转化成计算机能够识别的字符,输入到分类器当中进行分类处理。本文重点研究了文本
论文部分内容阅读
目前,对于传统有害弹幕的处理方式主要是设置关键字和人工审查这两种方式,在效率和准确率上很难得到保障。于是,本文的主要内容是将机器学习中自动文本分类的方法运用到弹幕的分类处理上,以达到高效的识别出有害弹幕的目的。本文以从斗鱼直播爬取的弹幕文本为数据集,通过人工的方式将其分为有害弹幕和正常弹幕,再对其进行预处理,将得到的文本集转化成计算机能够识别的字符,输入到分类器当中进行分类处理。本文重点研究了文本分类的关键步骤,具体从特征加权和分类器步骤展开了研究:(1)本文根据传统TF-IDF权重计算方法的缺陷,提出了一种新的结合特征关键词在类别内部和类别之间的分布信息的改进TF-IDF权重计算方法,并与SVM算法结合,形成IM_TF-IDF*SVM分类模型,经过实验得到其在有害弹幕集上的准确率为0.936,整体性能F1值为0.929,相对于传统的TF-IDF*SVM分类模型分别提升了1.1%和1.4%。(2)基于全局核函数和局部核函数的优缺点,提出了一种结合高斯核和线性核的改进混合核函数,再与前面提出的改进TF-IDF权重算法相结合,形成IM_TF-IDF*IM_SVM分类模型,经过实验得到在有害弹幕集上的准确率为0.932,整体性能F1值为0.935,与采用线性核的IM_TF-IDF*SVM分类模型相对比分别提升了1.1%和0.6%,与采用高斯核的IM_TF-IDF*SVM分类模型相比分别提升了2.7%和2.3%。(3)本文提出了一种基于主成分分析法的NB弹幕分类模型,将主成分分析法中得到的k个主成分的方差贡献率作为特征属性值的权重值,能够有效的降低朴素贝叶斯模型中“各条件属性相互独立假设”所带来的影响,得到PCA_NBW分类模型,经过实验得到在有害弹幕上的准确率为0.925,整体性能F1值为0.917,与传统NB分类模型相对比分别提升了1.2%和2.4%。(4)本文设计实现了一个弹幕分类实例系统,系统可以直观的向用户展示分类的结果,并详细的介绍了系统中的各个模块以及实现的功能。
其他文献
由于微电网光伏功率的间接性与随机性以及电力负荷的波动性会对微电网系统的稳定运行产生较大影响,而传统优化算法对复杂非线性的优化调度问题的优化达不到设定需求,存在收敛速度慢,容易陷入局部最优等缺点。文章以光伏微电网为对象,基于对光伏功率和负荷的预测,对光伏微电网优化调度进行研究。在微电网光伏功率预测和负荷预测方面,本文设计了结合卷积神经网络(Convolutional Neural Networks,
室内定位对于室内自动导引运输车、虚拟现实、服务机器人等应用具有及其重要意义。视觉同时定位与地图构建(Visual Simultaneous Localization and Mapping,VSLAM)因其设备简单、价格低廉、效果优秀、不依赖于GPS等优点成为了目前无人系统领域的研究热点。然而,VSLAM过于依靠相机对周围环境特征信息的采集,无法处理特征缺失及弱纹理场景,且相机采集帧率较低,无法处
本文以低光照环境下的视频序列为基础,进行人脸跟踪算法的改进研究。传统的人脸跟踪算法在低光照环境下进行跟踪时,由于人脸的颜色特征表现不明显,且容易受到遮挡、尺度变化等干扰的影响,产生跟踪漂移,甚至丢失目标,导致跟踪失败,不能够达到长时间准确跟踪的目的。为解决以上问题,本文进行了如下研究:(1)针对低光照环境下颜色特征表达不明显,导致跟踪的过程容易出现漂移的问题,本文提出了一种融合局部二值模式(Loc
随着5G和人工智能时代的来临,元器件的运行速度不断上升,对印刷电路板(Printed Circuit Board,PCB)的设计要求越来越高,电路布局更加复杂。PCB的高速效应导致了电路信号的失真更为普遍。信号完整性(Signal Integrity,SI)作为数字电路设计过程中一个不可避免的问题,极大的影响了电路系统的稳定性和信号的传输性能。因此,本文基于人工智能算法对SI分析的仿真技术进行研究
磁瓦是永磁电机中的核心元件,有着广泛的市场和需求。由于磁瓦的制造工艺复杂,磁瓦成品不可避免会带有瑕疵或缺陷,这些结构上的不足会严重影响磁瓦产品的性能与效益。磁瓦内部缺陷具有不可见、分布随机、程度不一的特点,致使相关的自动检测技术发展缓慢。现阶段大多数企业针对磁瓦内部缺陷仍采用人工的方式进行检测。为改善人工检测带来的困境,本文以磁瓦声振信号为研究对象,利用信号处理算法实现磁瓦内部缺陷的有效识别。本文
永磁铁氧体材料是当代社会经济迅速发展中必不可少的基础型功能材料,全球范围的磁性材料生产基地逐渐向发展中国家转移,以至于我国正逐步成为全球磁瓦生产基地。在生产中仍然难免会出现具有缺陷的磁瓦产品,为确保永磁电机在高速运行中,不会因磁瓦的缺陷导致重大事故,实现快速而准确的缺陷检测是磁瓦制造业当今面临的最为突出的问题。声学检测相较于其他无损检测方法具有无可比拟的优势,在零部件的内部缺陷检测中应用率最高。基
四旋翼无人机由电机带动四个螺旋桨提供动力,具有垂直起降、空中悬停、轨迹跟踪飞行等多种功能,是一种结构简单、操作便捷、性能较高且成本低廉的飞行器,已被广泛应用于农业、航拍、巡检等许多方面。其中,在航拍摄影方面,往往需要飞行器能够准确地执行预期轨迹飞行任务。本文主要研究无人机的轨迹跟踪功能,反步法是设计控制器的一种常用方法。本文在传统的反步法设计控制器的基础上,考虑到飞行器在实际环境中可能受到的各种扰
白酒是中国特有的固态蒸馏酒,生产工艺复杂,生产周期长。其生产工艺中的摘酒工艺是白酒生产中非常重要的环节。摘酒工艺的主要工作是摘酒工通过流酒管流出的酒液在摘酒布上形成的酒花形状、酒花数量的多少,来实现分段摘酒。目前大多数酒厂都是人工摘酒,完全依赖摘酒工人的个人经验。对酒花情况的感官判断不同的工人对分类界限判断不一致,整个摘酒环节劳动强度大,且容易出现人为误差,导致不准确摘酒,影响基酒质量。另外,整个
勾兑是白酒生产工艺的重要环节,对于稳定或提高白酒质量起着十分重要的作用。随着用户需求的不断变化,白酒勾兑配比优化研究也变得越来越重要。本文通过分析传统的勾兑配比方法存在的问题和不足,提出了改进遗传算法的勾兑配比方法,并用不同度数的白酒进行了对比与验证,通过实验说明改进遗传算法的勾兑配比方法的有效性。本文主要的研究内容如下:(1)采集白酒微量数据用于分析传统的勾兑配比方法存在的问题。发现线性规划、目
可见光图像可以提供与人类视觉系统一致的高空间分辨率和高清晰度的纹理细节。红外图像根据热辐射的不同,不受昼夜变化与天气的影响,能有效地将目标与背景区分开来。将可见光图像与红外图像进行融合可以得到更加丰富的融合图像,从而更加有效地应用于视频监控、夜间辅助驾驶、目标检测与智能跟踪等领域。近年来,随着变分法与深度学习理论的发展,变分法与深度学习技术表现出较好的图像处理性能。鉴于此,本论文将变分法、深度学习