【摘 要】
:
本文提出在聊天机器人的应用背景下敏感内容的定义,统计了各种分类标准下敏感内容的分布,并在从网络爬取的问答语料中,分别采用敏感词表过滤与机器学习方法进行了数据清洗,在
论文部分内容阅读
本文提出在聊天机器人的应用背景下敏感内容的定义,统计了各种分类标准下敏感内容的分布,并在从网络爬取的问答语料中,分别采用敏感词表过滤与机器学习方法进行了数据清洗,在提出的敏感内容定义下,召回率达到80%,合格数据留存率达到60%。本文还利用优化后的敏感词表与启发式规则,无监督地获得敏感语料,可有效地大量获得无关键词的敏感内容,扩增数据合格率可达80%。
其他文献
本文旨在研究如何将强化学习模型合理地应用在海克斯棋博弈算法中,并给出程序实现方案。以蒙特卡洛树搜索生成数据集训练卷积神经网络的方式,使得模型能够在不断自我对弈的过
随着Web 2.0的不断推广以及社交应用的不断普及,在线社交网络结构分析得到了各领域学者的广泛关注。社区是网络中内嵌的密集群组,保证了社区内部用户的强相关性和一致性,因此
随着网络信息量的爆炸式增长,大数据时代的来临,利用网络爬虫对大数据进行分析处理有非常重要的意义。本文以BOSS直聘网站为例,在Python3.7和MySQL Server8.0的基础上,设计并
随着人们对安防意识的不断增强,视频监控报警变得越来越重要,但传统的设计方法暴露出时延高的缺点。本文结合边缘计算的热点,将视频监控与边缘计算技术结合起来,设计了一种基
<正>2月17日,由广州市旅游局和天河区政府联合主办的花车大巡游活动,在天河体育中心拉开帷幕。今年主题花车以"不忘初心,牢记使命"为主题,长宽分别为12米和3米,算得上是广州
黄斑裂孔性视网膜脱离是一种特殊类型的视网膜脱离,由于裂孔位置及手术的特殊性,术后体位对预后起着至关重要的作用,特殊体位也增加了护理的难度。为了给病人提供最适合的护理,我
在葡萄设施栽培中,利用大棚进行早熟促成栽培,是普遍使用的技术。但大棚栽培存在一些不确定因素,如早春寒潮等,常给栽培者造成巨大损失。2008年,我地开始实施三层薄膜覆盖栽培试验