面向博客的垃圾评论识别方法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:yxhangyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客本身所具有的免费、自由和可共享的特点,使博客评论中出现了大量包含有广告、超链接、谩骂或是诽谤等信息的垃圾评论。这给网络用户阅读评论和与他人交流带来了不便,同时还影响了对评论内容的挖掘。本文面向博客领域进行垃圾评论的识别研究,主要工作如下:在评论识别时,考虑到评论的长短不一,对只包含网络常用语的短小评论,如果用评论与对应文章比较相似度的方法来识别,容易将正常的短小评论识别为垃圾评论。因此,本文对不同长度的评论采取了不同的识别方法。针对短小评论,通过比较短小评论中包含的垃圾常用语和正常的网络常用语的个数来判断短小评论的类别,进而过滤出短小的垃圾评论。识别较长评论时,本文改进了传统的余弦相似度公式,将词语间的近义关系、词语存在的位置信息和主题词相似度信息融入了公式中,弥补了传统的相似度公式无法识别近义词的不足。同时,考虑到主题词与话题之间的相关程度会随着话题的转移而有所变化,提出了利用上述改进的相似度公式对较长评论进行k轮识别的方法。在每轮的识别过程中,结合识别出的正常评论和词语间的近义关系对主题词的权重进行调整,从而体现主题词与话题之间的相关程度;然后再从正常评论中选出主题词的近义词和评论中的高频词汇来对主题词进行扩展,以适应话题的发展变化。最后,在所有评论识别完毕后,利用网络常用语和更新后的主题词对识别出的垃圾评论进行二次过滤,降低了正常评论被识别为垃圾评论的可能性。实验结果表明,利用本文的方法进行评论的识别,在一定程度上提高了识别垃圾评论的准确率和召回率。
其他文献
Cyber-physical网络环境下的实时系统是一个综合计算、网络和物理环境的多维复杂系统,通过3C (Computation、Communication、Control)技术的有机融合与深度协作,实现大型工程
本论文的主要工作是设计与制作了基于ZigBee无线网络的传感器系统。论文研究了无线网络技术,其中包括了无线局域网的结构和无线局域网的工作原理。讨论了ZigBee的规范和协议
铁路运输是一种重要的交通运输方式,列车运行系统是铁路运输的核心。列车运行系统研究的难点是连续变量和离散事件的描述与分析,以及列车运行过程中相关冲突的描述与分析。针
嵌入式系统已广泛运用于航空航天、核工业等高可靠性高安全性领域。为了提高此类关键领域系统开发的安全性及高效性,业界提出了模型驱动架构MDA (Model Driven Architecture)
目前,随着信息技术、网络技术以及PDA设备软硬件的发展,PDA设备已经逐渐成为高速公路维修保养数据采集数字化的新媒介。以往运行在PDA上的数据采集模块由于受硬件限制,大多只
OFDM(正交频分复用)技术作为一种多载波调制技术,具有频谱利用率高、抗频率选择性衰落、抗码间干扰能力强等优点,适用于无线信道中的高速数据传输,因而具有广泛的应用前景。
随着改革开放不断深入到我们的日常生活中,国民经济一直在稳定提高,城市道路不断进行整改、扩建,这就迫切需要对交通管理能有更高效、更全面的管理。为了全面监视、管理和控
Web Services是以XML为基础的一组协议体系,是一种分布式的应用集成技术,它的主要特点是松散耦合、易于扩展、方便部署、跨平台及与编程语言无关;目前被应用在很多领域,特别是
煤矿安全生产是一个综合人力条件、管理设施和地质等自然环境条件共存的非线性动态系统,它的变化虽有一定的规律性,但同时也会受到经济、环境等许多因素的影响。不同的影响因
操作系统的进程调度策略一直是一个研究热点。随着技术的进步,多核体系结构逐渐成为主流,这为操作系统的进程调度研究带来了挑战。其中,负载均衡问题扮演着很重要的角色。负