论文部分内容阅读
近年来,移动互联网发展迅猛,随之而来的大数据技术的发展,使得社交网络变得尤为发达,并由此产生了大量的文本数据。微博和直播等平台的兴起,使网络文本更多的以弹幕和评论等短文本为主。这些文本在丰富大家交流的同时,一些夹杂其中的不良文本也给互联网健康带来了一些的危害。这些不良短文本主要以反动文本,侮辱性不雅文本和广告文本为主。这些不良文本严重阻碍了人们对有效信息的获取,同时其中的一些色情暴力信息也对青少年造成了很大的不良影响。如何有效地过滤这些不良文本信息,净化社交网络环境,成为社交网络时代一个重要的话题。现有的过滤方法分为两种,一种是基于规则的不良文本过滤系统,一种是基于机器学习的不良文本过滤系统,即文本分类系统。但是,因为网络短文本存在变形词较多,文本普遍很短且口语化严重,特征稀疏以及样本数量不平衡等因素,普通的过滤方法不能起到很好的效果。针对不良短文本的识别,本文从减少文本噪声,降低文本特征的稀疏性和增加文本语义特征等几个方面提高不良短文本的识别精度。本文的主要研究工作有:(1)改进了文本预处理方法。普通的文本预处理方法对于不良短文本的噪音不能有效的去除。我们通过对大量不良短文本内容的分析,改进了文本的预处理方法,从文本去噪、杂乱信息归一化以及去停用词等多个方面对文本预处理。(2)多角度提取不良短文本特征。短文本本身口语化较为严重,并且变形词以及错别字也广泛存在于网络短文本中,这降低了普通中文分词方法的分词效果。在本研究中,我们加入了短文本的2元语法(Bi-gram)特征所提取的特征作为文本的基础特征。另外,我们从不良短文本的整体出发,增加了文本的整体特征,最后,我们发现上述文本特征会损失文本的语义信息,因此我们加入基于word2vec的文本语义特征。(3)特征权重分析与特征融合。我们针对短文本提取了Bi-gram特征,文本风格特征以及文本语义特征等特征,对于不同种类的特征,我们分别赋予权重,然后再用特征融合的方法进行文本表示。(4)使用本研究中所提取的短文本特征对不良文本识别进行实验。我们从互联网上爬取了含有不良文本的数据集并进行标注,并使用不同的分类器进行不良短文本识别实验。实验结果表明,本文的不良短文本特征提取方法和SVM分类器组成的不良文本识别效果最优。