【摘 要】
:
电子邮件作为一种信息传递的方式,得益于其方便、快捷、低成本等特性,拥有庞大的用户群体,特别在企业、学校、政府部门中,电子邮件功能已经被集成到各自的OA系统中。但由于垃
论文部分内容阅读
电子邮件作为一种信息传递的方式,得益于其方便、快捷、低成本等特性,拥有庞大的用户群体,特别在企业、学校、政府部门中,电子邮件功能已经被集成到各自的OA系统中。但由于垃圾邮件的大量出现,产生了一系列的问题。对邮件服务提供商而言,垃圾邮件不仅会占用大量的网络带宽和服务器的存储空间,还增加了服务器处理时间;对于用户而言,阅读垃圾邮件不仅会浪费时间,其内容可能会给用户带来潜在的危害。因此,对垃圾邮件有效的检测和过滤技术的研究就显得尤为重要。首先,本文对文本表示模型进行了研究,分析了布尔模型、向量空间模型的原理及其优缺点。在传统文本表示模型的基础之上,引入一种基于语义分析的文本表示模型-Word2vec。考虑到LDA模型可生成文本的主题信息,结合Word2vec和LDA模型,提出一种新的邮件文本特征提取算法。该算法提取的特征中包含着词的语义、语法、位置等词的深层特征信息,且这些特征对文本的分类更有效。其次,对传统的KNN算法进行改进,在选取前k个样本时,仅在与测试样本主题相似的文本中选取。这样有效的解决了当样本规模较大时,KNN算法时间复杂度较高的问题。此外,对传统的SVM算法进行了优化,在模型中引入MGD算法、字符串核函数,不仅解决了传统模型中参数可能会陷入局部最优解的问题,同时也加快了模型的收敛速度。实验结果表明,改进后的KNN和SVM算法在准确率和召回率参数上得到了明显的提升。最后,基于JavaMail开发了一个邮件过滤系统,并将基于主题模型的邮件过滤算法移植到此系统中。邮件系统不仅提供邮件收发、邮件代收、邮件查询等基础功能,而且还提供了垃圾邮件检测、邮件智能分类等高级功能。与现有的邮件系统相比,它不仅提升了垃圾邮件检测的精度,而且还能根据邮件的内容对邮件自动分类,方便用户阅读。
其他文献
作为1999年才与世界接轨的中国竞技健美操项目,欲在世界大赛中有所表现一直是教练和运动员努力的目标。所谓“知己知彼,百战不殆”,有比较才有鉴别,本课题的研究即立足于FIG2001
当今世界,科学技术突飞猛进,知识经济已见端倪,国力竞争日趋激烈。综合国力的竞争归根到底表现为人才的竞争和科技的进步,而科技的进步又必须靠人才来实现。当代大学生的素质如何
基于专业焊接软件SYSWELD,采用Goldak提出的双椭球热源模型,对1.5mm厚铝合金管点焊过程进行了有限元数值模拟。模拟中充分考虑了材料热物理性能参数的非线性,及对流、辐射等
目的探讨磷酸化的哺乳动物雷帕霉素靶蛋白(P—mTOR)在卵巢上皮癌组织中的表达和临床意义。方法采用免疫组化方法检测154例卵巢上皮癌、25例良性上皮瘤和34正常卵巢组织中P—mTO
随着信息时代的到来和城市化的加剧,城市绿地系统规划工作呈现出了一系列的新特点:绿地系统的规划与建设的范围已由传统园林学的层次扩展到宏观的城乡一体化甚至是大地化、国土
根据羌塘盆地重磁震数据资料,使用GM SYS软件系统对重力、磁法及地震位图三种地球物理剖面进行处理解释,共完成4条地球物理剖面的模拟解释,并由其构组羌塘盆地地质-地球物理
目的评估止痛药使用情况及趋势,以指导临床合理用药。方法对2010-2011年用药金额、DDDs及构成比等数据进行分析。结果轻度止痛药消耗总金额、DDDs及构成比显著降低,中、重度
获取宣传的正效果,实现宣传效益最大化,是思想政治宣传工作的核心与归宿.当前,思想政治宣传工作受到了严峻挑战,为增强宣传效果,从管理视角着墨,探寻增强思想政治宣传效果的
目前我国证券市场虚假陈述案件屡屡发生,其法律原因在于相关法律的长期缺位。《证券法》等相关法律对虚假陈述民事责任的规定非常粗陋,不具有可操作性,无法有效地保护投资者的利
目的探讨产后访视用于促进母乳喂养成功的效果。方法选取2010年8月—2012年12月于本院分娩出院产妇280例,采用随机数字表法分为对照组(140例)和产后访视组(140例);其中对照组