论文部分内容阅读
随着互联网的快速发展,电子邮件作为互联网最初应用之一,现已成为人们日常生活、工作必不可少的交流工具。然而,垃圾邮件的出现和泛滥,占用了大量的存储资源与网络带宽。同时,垃圾邮件所携带的网络病毒以及色情、欺诈、反动等垃圾信息更是严重影响了人们正常的网络应用。电子邮件作为互联网上最广泛的应用之一,如何保障其内容的安全与健康已成为信息内容安全方面亟待解决的问题。近年来,垃圾邮件制造者为了逃避基于文本的垃圾邮件过滤系统的检测,将垃圾信息嵌入到图像中,并将其附着在邮件正文中进行传播。传统的基于文本的过滤方式无法处理此类包含垃圾信息的邮件图像。为了应对这种同时包含文本和图像的垃圾邮件,本文提出了一种基于多模态特征的融合文本、图像等多媒体信息的过滤方法。首先,抽取邮件的文本特征和图像特征;其次,采用P-SVM对不同的特征集进行训练,分别构造出基于文本与基于图像的分类器;最后,利用多分类器融合技术对各分类器的输出结果进行综合,以此达到融合文本特征和图像特征的目的。该方法有效地融合了垃圾邮件过滤技术中文本过滤与图像过滤的特点,实现了垃圾邮件过滤中多模态特征的融合。对TREC垃圾邮件语料集进行测试的实验结果表明,使用本文提出的多模态特征融合方法获得了比单独使用文本或图像过滤方法更好的效果,准确率达到90%以上。