论文部分内容阅读
摘要:为了避免视频网站中视频弹幕对于青少年的不良影响,笔者通过使用深度学习的文字分级算法来实现用户弹幕的分层、分类、分级,对用户的弹幕进行规范引导,营造良好的网络语言生态环境。弹幕分级展示的算法需要实时更新,在数据方面需要实时扩大机器学习训练的样本,并且对语言文字的分数归类进一步的细化和精确。在技术方面可以结合心理学、传播学、统计学等学科的最新发展情况,让弹幕的分级分类更加精准。
關键词:弹幕过滤;文本分类;弹幕分级
1绪论
“弹幕”是当下最为流行的在线视频实时互动交流方式,评论内容虽然转瞬即逝,但再次观看视频时还可在对应弹幕发出的节点看到该弹幕的内容,弹幕文化是一种将屏幕传播与文字传播相结合的融合文化。用户通过弹幕信息交流不仅可以与其他用户进行实时互动,使得观看视频的过程变得有趣,在交流中获得归属感[2],还可以通过弹幕了解额外的剧情知识,增强视频内容的可读性和趣味性,但由于弹幕的无限制性,用户可以随意表达自己的观点,却不用承担任何后果,促使弹幕文字有呈现低俗化的倾向,也让很多低俗语言在这种环境中进化甚至是病毒式传播。
李欣茹学者认为,视频弹幕的流行也存在一些隐患,尤其是一些血腥暴力或者黄色内容,极易被青少年模仿,造成不良影响,因此视频弹幕的交际环境必须加以引导和净化 [1] 。郑珺、尹文汉学者认为,随着网络传播匿名环境的推进和演化,人们在弹幕的吐槽狂欢呈现出了低俗色情、暴力攻击等倾向,弹幕视频的网络表达存在失范现象。网络表达的失范现象在一定程度上给其他观看视频的用户造成了观影心理的影响,对青少年用户的健康成长也非常不利[2] 。弹幕对青少年网络社群产生影响有多方面原因,弹幕作为影响的载体与介质,依靠其媒介特征发挥作用;青少年自身猎奇、不成熟的特质使得这种影响被放大。弹幕对青少年网络社群的健康发展产生影响,如何消除影响的消极方面、增强影响的积极方面是亟待解决的问题[3]。
基于先前学者的调查研究,以及本着保护青少年健康上网和构建绿色和谐上网环境的目的,我们可以得出结论:视频弹幕市场对弹幕分级算法是有需求的。
2 分级算法研究
本文主要论述了如下两部分内容。
首先,研究数据获取,通过弹幕爬虫收集数据,针对当下流量最大的中文弹幕视频分享网站B站编写弹幕爬虫程序,爬取网站中已有弹幕进行研究。这其中包括对B站弹幕文件爬虫的编写,对于爬取的弹幕,基于分类研究的基础上进行数据标注,为之后深度学习算法的训练提供分类训练集。
其次,弹幕分级研究,根据前面所爬取的弹幕数据,以及之前学者对于弹幕语言的研究,设置分类级别,对不同级别的用户进行弹幕分级的展示。在充分学习应用软件工程的开发方法以及编程语言、架构、数据库等知识能够解决实际问题的基础上,根据用户和管理者的需求,开发弹幕展示的分级算法。
2.1研究数据获取
为了本次研究的需要,笔者在开发网站爬虫时基本是针对某个网站中一类相同的文件里特定的公开内容进行爬取,与观看时进行实时摘录无异,只是从技术上起到节省时间的效果。本项目所爬取弹幕的目标为哔哩哔哩网站中的非直播的视频文件,由于B站弹幕是存在单独的XML文件中用于每次播放时的调用,所以可以爬取。
爬虫程序所爬取的弹幕会存放在CSV文件中,表格中第一列是对每一个弹幕进行的哈希编码,第二列是每条弹幕的具体内容,第三列score是记录其分类的打分数字,当前刚爬取下来默认值设置为“-1”,便于与日后人工或者算法给出的分数进行区分。如此设计以方便未来深度学习算法作为训练集样本调用。详见下图。
2.2弹幕分级模型
笔者依据从B站中爬取的弹幕文件,对其中的语言文字结合先前学者的研究[1-3]进行了简单的归纳总结。大概可分为文学用语的积极词汇、日常用语的常见词汇、专业用语、对于生活的讽刺用语和经过加工躲避敏感词汇的不良言论。笔者根据百分制的原则和对这些用语的分类,对爬取的弹幕文字进行标注,最后将数据用于机器学习算法的训练。
根据各个年龄阶段我国法律对其责任义务的规定,将弹幕分级展示的用户分为以下四个等级:6-14岁属于幼儿儿童,14-18岁属于青少年,18岁及以上属于成年人,其中如有注册用户所填年龄未满6周岁系统将不予以注册。还有一类是完全权限,是系统管理员以及应该有相应权限的监督和管理人员,可以看到系统所有用户的全部发表言论。用户弹幕分级年龄如下图2所示:
每个等级可看到的弹幕分级分数为:
0至不满14周岁属于幼儿儿童,可看0-40分,让处在义务教育阶段的儿童看到包括文学用语和日常用语的弹幕,更多接触健康社会,理解语言正确使用。文学用语包括正确引导儿童成长的马列主义哲学词汇,中国传统文化精髓的成语,日常用语包括生活用语甚至方言与科技以及带有拟人比喻等修辞方法的短语。
14至不满18周岁属于青少年,可看0-60分,让处在高级中等教育的青少年在上述基础上加上动漫与游戏相关弹幕,让其有对想象世界的判断能力上进行交流,他们正在形成世界观、人生观、价值观,虽然具备了基本判别是非能力,但仍然很容易被误导。
年满18周岁以后,世界公认此时已经是成年人,可看0-80分,可以发表对事物的看法和观点,但对成年人来说黄赌毒依然是被禁止的,所以需将这一类话语对其进行屏蔽。
还有一类是管理员以及监督人员查看全部弹幕的权限,可看0-100分。
3 总结与展望
视频弹幕分级算法通过对用户年龄阶段来划分用户所能看到的弹幕类型,以此来达到保护青少年健康绿色观影和学到更多知识的目的。在开发的过程中以基础功能作为底板,对用户的发言过滤,不是随意设立“禁言”关键字,而是通过真实的数据作为支撑来实现有效过滤,让管理者只需要不断的对新兴词汇进行归纳总结评分。
日后的研究还可以对弹幕的情感、舆论的兴起、定向引导等方面进行深入进行。分级弹幕电影系统也是在提醒网民和网络的管理者要时刻保持网络空间的绿色和谐,让更多的人意识到做和谐社会的一份子的重要性,更多的关注青少年在互联网时代的健康成长,同时我们也要在制度上为其保驾护航。
本研究报告系国家社会科学基金项目《数据赋能的智慧媒体对青少年行为模式变化影响的研究》(项目编号:19BXW120)支持的阶段性成果。
参考文献
[1]李茹欣. 视频弹幕的语言学研究[D].陕西师范大学,2018.
[2]郑珺,尹文汉.网络传播语境下弹幕视频热潮解析[J].辽东学院学报(社会科学版),2020,22(05):69-72.
[3]陈家玮.视频弹幕基础下的青少年网络社群研究——以哔哩哔哩和斗鱼直播为例[J].视听,2020(10):134-136.
關键词:弹幕过滤;文本分类;弹幕分级
1绪论
“弹幕”是当下最为流行的在线视频实时互动交流方式,评论内容虽然转瞬即逝,但再次观看视频时还可在对应弹幕发出的节点看到该弹幕的内容,弹幕文化是一种将屏幕传播与文字传播相结合的融合文化。用户通过弹幕信息交流不仅可以与其他用户进行实时互动,使得观看视频的过程变得有趣,在交流中获得归属感[2],还可以通过弹幕了解额外的剧情知识,增强视频内容的可读性和趣味性,但由于弹幕的无限制性,用户可以随意表达自己的观点,却不用承担任何后果,促使弹幕文字有呈现低俗化的倾向,也让很多低俗语言在这种环境中进化甚至是病毒式传播。
李欣茹学者认为,视频弹幕的流行也存在一些隐患,尤其是一些血腥暴力或者黄色内容,极易被青少年模仿,造成不良影响,因此视频弹幕的交际环境必须加以引导和净化 [1] 。郑珺、尹文汉学者认为,随着网络传播匿名环境的推进和演化,人们在弹幕的吐槽狂欢呈现出了低俗色情、暴力攻击等倾向,弹幕视频的网络表达存在失范现象。网络表达的失范现象在一定程度上给其他观看视频的用户造成了观影心理的影响,对青少年用户的健康成长也非常不利[2] 。弹幕对青少年网络社群产生影响有多方面原因,弹幕作为影响的载体与介质,依靠其媒介特征发挥作用;青少年自身猎奇、不成熟的特质使得这种影响被放大。弹幕对青少年网络社群的健康发展产生影响,如何消除影响的消极方面、增强影响的积极方面是亟待解决的问题[3]。
基于先前学者的调查研究,以及本着保护青少年健康上网和构建绿色和谐上网环境的目的,我们可以得出结论:视频弹幕市场对弹幕分级算法是有需求的。
2 分级算法研究
本文主要论述了如下两部分内容。
首先,研究数据获取,通过弹幕爬虫收集数据,针对当下流量最大的中文弹幕视频分享网站B站编写弹幕爬虫程序,爬取网站中已有弹幕进行研究。这其中包括对B站弹幕文件爬虫的编写,对于爬取的弹幕,基于分类研究的基础上进行数据标注,为之后深度学习算法的训练提供分类训练集。
其次,弹幕分级研究,根据前面所爬取的弹幕数据,以及之前学者对于弹幕语言的研究,设置分类级别,对不同级别的用户进行弹幕分级的展示。在充分学习应用软件工程的开发方法以及编程语言、架构、数据库等知识能够解决实际问题的基础上,根据用户和管理者的需求,开发弹幕展示的分级算法。
2.1研究数据获取
为了本次研究的需要,笔者在开发网站爬虫时基本是针对某个网站中一类相同的文件里特定的公开内容进行爬取,与观看时进行实时摘录无异,只是从技术上起到节省时间的效果。本项目所爬取弹幕的目标为哔哩哔哩网站中的非直播的视频文件,由于B站弹幕是存在单独的XML文件中用于每次播放时的调用,所以可以爬取。
爬虫程序所爬取的弹幕会存放在CSV文件中,表格中第一列是对每一个弹幕进行的哈希编码,第二列是每条弹幕的具体内容,第三列score是记录其分类的打分数字,当前刚爬取下来默认值设置为“-1”,便于与日后人工或者算法给出的分数进行区分。如此设计以方便未来深度学习算法作为训练集样本调用。详见下图。
2.2弹幕分级模型
笔者依据从B站中爬取的弹幕文件,对其中的语言文字结合先前学者的研究[1-3]进行了简单的归纳总结。大概可分为文学用语的积极词汇、日常用语的常见词汇、专业用语、对于生活的讽刺用语和经过加工躲避敏感词汇的不良言论。笔者根据百分制的原则和对这些用语的分类,对爬取的弹幕文字进行标注,最后将数据用于机器学习算法的训练。
根据各个年龄阶段我国法律对其责任义务的规定,将弹幕分级展示的用户分为以下四个等级:6-14岁属于幼儿儿童,14-18岁属于青少年,18岁及以上属于成年人,其中如有注册用户所填年龄未满6周岁系统将不予以注册。还有一类是完全权限,是系统管理员以及应该有相应权限的监督和管理人员,可以看到系统所有用户的全部发表言论。用户弹幕分级年龄如下图2所示:
每个等级可看到的弹幕分级分数为:
0至不满14周岁属于幼儿儿童,可看0-40分,让处在义务教育阶段的儿童看到包括文学用语和日常用语的弹幕,更多接触健康社会,理解语言正确使用。文学用语包括正确引导儿童成长的马列主义哲学词汇,中国传统文化精髓的成语,日常用语包括生活用语甚至方言与科技以及带有拟人比喻等修辞方法的短语。
14至不满18周岁属于青少年,可看0-60分,让处在高级中等教育的青少年在上述基础上加上动漫与游戏相关弹幕,让其有对想象世界的判断能力上进行交流,他们正在形成世界观、人生观、价值观,虽然具备了基本判别是非能力,但仍然很容易被误导。
年满18周岁以后,世界公认此时已经是成年人,可看0-80分,可以发表对事物的看法和观点,但对成年人来说黄赌毒依然是被禁止的,所以需将这一类话语对其进行屏蔽。
还有一类是管理员以及监督人员查看全部弹幕的权限,可看0-100分。
3 总结与展望
视频弹幕分级算法通过对用户年龄阶段来划分用户所能看到的弹幕类型,以此来达到保护青少年健康绿色观影和学到更多知识的目的。在开发的过程中以基础功能作为底板,对用户的发言过滤,不是随意设立“禁言”关键字,而是通过真实的数据作为支撑来实现有效过滤,让管理者只需要不断的对新兴词汇进行归纳总结评分。
日后的研究还可以对弹幕的情感、舆论的兴起、定向引导等方面进行深入进行。分级弹幕电影系统也是在提醒网民和网络的管理者要时刻保持网络空间的绿色和谐,让更多的人意识到做和谐社会的一份子的重要性,更多的关注青少年在互联网时代的健康成长,同时我们也要在制度上为其保驾护航。
本研究报告系国家社会科学基金项目《数据赋能的智慧媒体对青少年行为模式变化影响的研究》(项目编号:19BXW120)支持的阶段性成果。
参考文献
[1]李茹欣. 视频弹幕的语言学研究[D].陕西师范大学,2018.
[2]郑珺,尹文汉.网络传播语境下弹幕视频热潮解析[J].辽东学院学报(社会科学版),2020,22(05):69-72.
[3]陈家玮.视频弹幕基础下的青少年网络社群研究——以哔哩哔哩和斗鱼直播为例[J].视听,2020(10):134-136.