论文部分内容阅读
随着近年来移动互联网的迅猛发展,使得越来越多的新闻媒体工作者、政府行政人员、甚至是普通群众可以在网络中发布和传播信息,表达言论。由于互联网媒体传播的全球性、开放性、共享性和自由性等特点,使得一些主流新闻网站上出现大量的为了吸引用户点击率和曝光率的标题党新闻,并被迅速传播和扩散,造成了社会紧张、混乱的局势,导致公众对新闻工作者职业素质的质疑,对政府和企业工作者能力的质疑。因此,标题党新闻识别技术的研究对提高新闻质量具有重要的现实指导意义。标题党是指在网络新闻传播中,新闻发布者利用夸张、情色、扭曲、怪异等各种修辞手段制成具有轰动意味的标题以吸引阅读者的眼球,增加新闻网站的点击率。针对此“标题党”现象,本文提出了基于潜在语义分析的标题党新闻识别技术,并实现了该系统。本文通过选择国内外主流门户网站的相关新闻页面作为识别对象,希望能够通过基于潜在语义分析的标题党识别技术过滤标题党新闻,得到最优的检测识别效果及结论,也希望标题党识别技术能够在将来变得更加完善、高效,在一定程度上阻止标题党新闻的传播,提高受众者的阅读品质。本文首先介绍了国内外“标题党”现象的现状,以及我国针对标题党新闻识别技术的研究现状,指出了该技术存在的问题和局限性。在此基础上,本文提出了本课题研究的意义和主要内容。然后,本文对标题党新闻识别技术的相关知识进行了研究和总结,包括网页去噪工作原理、向量空间模型和矩阵的奇异值分解的相关知识。接着本文提出了一种基于潜在语义分析的标题党识别系统,并重点阐述了其相关技术的研究,包括基于HTTP的新闻网页下载技术、基于行块分布算法的网页正文抽取技术、基于正向最大匹配算法的分词技术、向量空间模型的构建、基于SVD的塌陷矩阵构建模块和基于LSA算法的标题党新闻判定模块。同时,本文详细介绍了系统各个关键模块的详细设计及其工作原理。最后,本文通过对实验采集的数据结果进行统计与分析,验证了基于潜在语义分析的标题党新闻识别技术思想的可行性及有效性。