【摘 要】
:
网络已经成为人们生活中的一部分,人们从网络中能够获取到的信息越来越多,新闻平台也日渐增长,这些平台的发展需要造就了如今的自媒体。自媒体的数量越来越多,发布的文章更是不计其数,文章的内容质量参差不齐,给相关审核人员带来了更大的难度。目前有很多公司都是基于指标去评判文章,忽略了文章内容本身,因此单从文本角度去判别质量的好坏,对于平台的长期发展是很重要的。中文文本信息在转化为数字信息时会有信息缺失的问题
论文部分内容阅读
网络已经成为人们生活中的一部分,人们从网络中能够获取到的信息越来越多,新闻平台也日渐增长,这些平台的发展需要造就了如今的自媒体。自媒体的数量越来越多,发布的文章更是不计其数,文章的内容质量参差不齐,给相关审核人员带来了更大的难度。目前有很多公司都是基于指标去评判文章,忽略了文章内容本身,因此单从文本角度去判别质量的好坏,对于平台的长期发展是很重要的。中文文本信息在转化为数字信息时会有信息缺失的问题,所以针对纯文本形式的信息特征提取是比较困难的。因此,如何从文本本身的角度去识别一篇文章的文本质量,是本论文主要解决的问题。本文利用自然语言处理与机器学习、深度学习方面知识,设计并实现了以下两个模块。(1)识别标题党。针对识别标题党的研究主要是在句子相似度方面,本文采用了Bert(Bidirectional Encoder Representation Transformers)模型得到句向量,通过余弦相似度计算句子间的相似度。使用句子相似度计算模型提取出主题句,然后计算标题与主题句之间的相似度,完成识别标题党的功能。(2)评估正文文本质量。通过有监督的学习,从多维度提取文章内容的语法、语义信息等特征,尽量减少信息的损失。使用LDA(Latent Dirichlet Allocation)主题模型得到的主题分布、短语句法结构、依存关系、关键词,分别作为特征,使用卡方检验进行特征选择,运用机器学习算法进行有监督的学习,构建多个模型。进行模型评估,最后使用用元学习框架做模型融合,用以提升模型整体性能。构建好的模型就可以用来评估文本质量。经过测试,Bert可以很好地应用于句子相似度计算中,融合后的正文内容质量评估模型准确率得到了提升。系统达到了可以上线使用的目的。
其他文献
冠心病的发病率和病死率呈逐年递增趋势,再灌注治疗技术的进步对改善冠心病的预后有积极作用,但缺血再灌注损伤及后续并发症的发生直接影响再灌注治疗疗效。远端缺血预适应可
近年来我国城市轨道交通运营里程不断增加,在运营过程中还存在较大的安全隐患,如何提高地铁系统运行安全,保证系统稳定、降低系统脆弱性已成为目前急需解决的问题之一,因此进行关于地铁脆弱性的研究具有重要意义。通过对城市地铁系统的综合分析,从城市地铁系统的网络结构、运营特点中得出了城市地铁系统的脆弱性特征。应用事件链法描述了地铁事故形成过程,构建了影响地铁脆弱性的干扰事件网络模型。以复杂网络特征指标对其进行
蜂胶黄酮是蜂胶的主要活性成分,具有抗氧化、抗菌等多种功效。优化蜂胶黄酮的超声提取工艺,为蜂胶产品的开发与利用提供了理论依据。首先进行了单因素试验,研究超声功率、超
针对新型智能传感器硬件简单、软件复杂的实际情况,本文探讨了如何用汇编语言实现智能芯片SHT15对温/湿度的测量。文中给出了详细的测量程序流程图,这对智能传感器的使用及用汇编语言实现智能测量有一定的实际意义和启迪作用。
目的探究温馨助产护理干预应用在产妇分娩中与对产后出血的效果。方法选取庆阳市西峰区人民医院在2015年9月至2017年2月期间收入院的分娩产妇,共计96例,将全部研究对象分为观
<正>教学反思能力是在教师以自己教育教学活动为思考对象,对自己的决策、行为、方法以及由此产生的结果进行审视、分析、调整的能力。教师只有具备一定的反思能力,才能够体验
简要介绍了小波分析的基本理论厦基于内容的图像检索技术。重点阐述了小波分析在图像的特征提取(纹理、目标形状等)上的应用,并展望了基于内容的图像检索技术今后的主要研究方向
红色旅游文化是旅游文化的一种特殊形态,包含着有别于红色文化的不同含义、内涵、表现形态和特点。
极端严寒天气从2月14日开始袭击了美国中部和南部,位于南部的德克萨斯州也未能幸免。漫天飞雪之下,德州气温创数十年来最低水平,数百万居民断电断暖,超20人因取暖用火或交通