基于机器学习的不良短文本识别研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:sfwyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,移动互联网发展迅猛,随之而来的大数据技术的发展,使得社交网络变得尤为发达,并由此产生了大量的文本数据。微博和直播等平台的兴起,使网络文本更多的以弹幕和评论等短文本为主。这些文本在丰富大家交流的同时,一些夹杂其中的不良文本也给互联网健康带来了一些的危害。这些不良短文本主要以反动文本,侮辱性不雅文本和广告文本为主。这些不良文本严重阻碍了人们对有效信息的获取,同时其中的一些色情暴力信息也对青少年造成了很大的不良影响。如何有效地过滤这些不良文本信息,净化社交网络环境,成为社交网络时代一个重要的话题。现有的过滤方法分为两种,一种是基于规则的不良文本过滤系统,一种是基于机器学习的不良文本过滤系统,即文本分类系统。但是,因为网络短文本存在变形词较多,文本普遍很短且口语化严重,特征稀疏以及样本数量不平衡等因素,普通的过滤方法不能起到很好的效果。针对不良短文本的识别,本文从减少文本噪声,降低文本特征的稀疏性和增加文本语义特征等几个方面提高不良短文本的识别精度。本文的主要研究工作有:(1)改进了文本预处理方法。普通的文本预处理方法对于不良短文本的噪音不能有效的去除。我们通过对大量不良短文本内容的分析,改进了文本的预处理方法,从文本去噪、杂乱信息归一化以及去停用词等多个方面对文本预处理。(2)多角度提取不良短文本特征。短文本本身口语化较为严重,并且变形词以及错别字也广泛存在于网络短文本中,这降低了普通中文分词方法的分词效果。在本研究中,我们加入了短文本的2元语法(Bi-gram)特征所提取的特征作为文本的基础特征。另外,我们从不良短文本的整体出发,增加了文本的整体特征,最后,我们发现上述文本特征会损失文本的语义信息,因此我们加入基于word2vec的文本语义特征。(3)特征权重分析与特征融合。我们针对短文本提取了Bi-gram特征,文本风格特征以及文本语义特征等特征,对于不同种类的特征,我们分别赋予权重,然后再用特征融合的方法进行文本表示。(4)使用本研究中所提取的短文本特征对不良文本识别进行实验。我们从互联网上爬取了含有不良文本的数据集并进行标注,并使用不同的分类器进行不良短文本识别实验。实验结果表明,本文的不良短文本特征提取方法和SVM分类器组成的不良文本识别效果最优。
其他文献
本文把尼采著作中格言分门别类,分别理解他对科学、哲学、道德和宗教价值的重估,并阐释他的积极虚无主义的两个主张——超人和永恒轮回。最后以尼采重估一切价值的态度对待尼
武侠电影作为中国特有的电影类型,在中国电影史上占据着重要的地位。在中国特有的历史文化语境下,中国武侠电影体现了中华民族传统的“侠义”文化和保家卫国的“侠义”精神。
《脾胃论》是东垣学说中理论最集中的一部分。《脾胃论》的出现,标志着脾胃学说的创立,是补土学派的学术之源。本书丰富了中医学理论和临床内容,开辟了中医认识、治疗内伤杂
大数据背景下,医学研究所依赖的数据环境和分析技术发生了很大变化。以机器学习、深度学习等技术为代表的预测型分析和指导型分析突破了传统分析方法的局限,在疾病与不良事件
英国高等教育历史悠久,其中央教育行政机构几度易名,不断在高等教育管理模式的分权与集权中寻找平衡,为我国的高校管理提供了宝贵经验。通过分析英国几所世界著名学府各具特
微加工技术发展至今始终致力于如何高度还原设定的程序模型,这对于制备`应用于光子学,电子学,微机械等领域的微纳器件来说是至关重要的,因为它们都需要维持特定的形状和尺寸以保
Ⅲ族氮化物(InN,GaN和AlN)半导体因其非常优异的特性而得到了广泛的关注。在最近十几年,InN因其具有非常高的电子迁移率和饱和漂移速率、较小的电子有效质量和较窄的禁带宽度等
本文研究10位1GSample/s数模转换器核心模块的设计。在深入分析研究了DAC基本原理和结构的基础上,采用分段式电流舵结构,即高8位采用温度计码,低2位采用二进制译码,设计出10
本文主要对GaSb基进行欧姆接触的制备以及的电学性质进行研究。以课题的研究背景、国内外发展现状为前提,在此基础上,介绍了半导体激光器以及Ⅲ-Ⅴ族材料的特性,并详细阐述了
红提糖度和酸度直接影响鲜食口感及其副产品的品质和档次,因此成为评价红提品质的主要指标。若能够利用可见-近红外光谱技术来实现红提品质的快速无损检测,对促进红提产业发