论文部分内容阅读
随着社会的发展,我们身边出现了越来越多的“标题党”现象。“标题党”以博取观众的眼球为目的大肆制作题文不符的新闻标题,被迅速传播和扩散,导致了公众对新闻工作者职业素质的质疑,造成了很多社会问题。因此,“标题党”新闻识别技术的研究对改善网络新闻环境有现实的指导意义。“标题党”新闻是指网络上的新闻在传播的过程中,新闻的发布者用各种吸引人的修辞手法,来制作成具有轰动效应的标题,以此吸引受众的眼球。本文所要研究的关键问题就是基于传统的“标题党”新闻识别方法中的文本相似度的计算方法,给出了用一种基于同义词词林中的词组表示文本中出现的词的改进型的VSM结合余弦相似度的文本相似度计算方法,也给出了《知网》(HowNet)文本相似度计算方法,并研究了基于改进型VSM-HowNet融合相似度算法,用这种融合相似度算法对文本相似度进行计算并对“标题党”新闻和非标题党新闻进行识别。本文首先针对“标题党”新闻现象,阐述了“标题党”新闻产生的原因、危害,文本相似计算目前的研究程度,本课题研究意义和主要内容也被给出。从文本分析的过程、文本相似度的概念和计算方法上给出阐述,还给出了传统文本相似度计算方法存在的问题和王氏主题-词形文本相似度计算方法的不足之处。在方法论的研究中给出了改进型VSM结合余弦相似度的方法,在此方法中把传统的词向量变成用同义词词林中的同义词组的向量形式来表示。也给出了《知网》(HowNet)文本相似度计算方法以及改进型VSM-HowNet融合相似度算法来识别“标题党”新闻和非标题党新闻,对“标题党”新闻和非标题党新闻的识别技术能变得更加完善、高效。然后根据本文中提出的新的文本相似度的计算方法及王氏主题-词形文本相似度计算方法的局限性的基础上给出了实验目的、语料库、内容及过程。最后,通过针对具体的实验过程,对实验结果进行了统计与分析,通过将本文提出的融合相似度算法和王氏主题-词形文本相似度计算方法进行对比,得到了在多种新闻比例下及数据集下王氏主题-词形文本相似度计算方法是不如融合相似度方法的。经过了进一步的研究,用改进型的VSM结合余弦相似度的文本相似度计算方法对“标题党”新闻识别的准确率为60.7%,优于王氏主题-词形文本相似度计算方法较多。且在对非标题党新闻的准确率、召回率及F1值上改进型的VSM结合余弦相似度的方法也优于王氏主题词-形文本相似度计算方法,分别提高了1.35%、6.71%和10.02%。得到了改进型VSM-HowNet融合相似度算法,此方法对“标题党”新闻识别的总准确率、总召回率及总F1值均高于其他文本相似度计算方法,对于识别一篇未知类型的新闻来说,改进型VSM-HowNet融合相似度算法相比于其他文本相似度计算方法是更有优势的。经过实验,本文得到了利用一种基于同义词词林中的词组表示文本中出现的词的改进型的VSM结合余弦相似度的文本相似度计算方法、《知网》(HowNet)的文本相似度计算方法,分别和王氏文本相似度的计算方法做对比,得到了较好的结果。并且得到了用改进型VSM-HowNet融合相似度算法计算得到的对“标题党”新闻识别的总准确率、总召回率及总F1值均要优于其他文本相似度计算方法的结论。