基于数据挖掘技术的电子邮件地址聚类系统设计与实现

被引量 : 0次 | 上传用户:LUOLIJIAN88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前流行的电子邮件信息处理方法大部分只是针对单个电子邮件内容进行分析筛选,但仅仅凭借电子邮件本身内容无法实现高精确度的分类。如何利用目前各种成熟的数据挖掘技术,从海量电子邮件信息中挖掘出有用的知识和信息,成为了亟待解决的热点问题。数据挖掘中的聚类分析技术是数据挖掘领域一个重要研究方向,其作用是将样本数据区分为若干个类或簇,在同一个类或簇中样本之间具有较高的相似度,而不同类或簇中样本差别较大。本文描述了一个基于数据挖掘技术的电子邮件地址聚类系统。系统根据电子邮件地址之间的收发关系,构建出电子邮件地址的相似度测量属性,利用基于密度聚类方法中的DBSCAN算法,对电子邮件地址关系紧密程度进行划分,找出较为活跃的电子邮件地址,从而缩小了电子邮件地址查阅范围,提高电子邮件信息分析处理的针对性和有效性。在电子邮件信息抽取过程中,系统实现了海量电子邮件信息解码和属性分类存储。在不影响数据原有特征的前提下,通过去重、填补、剪枝和遍历查找的方法,对电子邮件信息进行预处理,最大限度的缩减了数据规模,解决了处理海量信息时的速度问题。另外,系统使用了特定地址邮件收发数量统计和特定地址联系状况统计的两种统计方法,为分析数据规律,了解数据概貌提供了一种直观的方法,同时也为验证电子邮件地址聚类结果有效性提供了参考。最后,本文还对开发的系统进行了验证分析。验证结果表明,系统在保证较快运行速度的前提下,达到了对电子邮件地址关系紧密程度的划分和电子邮件地址信息统计结果可视化表示的设计目标。验证了系统的有效性。
其他文献
<正>"物质熔沸点规律",实质是构成物质的微粒之间作用力的体现,也是物质结构知识的重要考查点之一,在各地化学会考、学业水平考试以及高考中均有相应试题出现。笔者查阅不同
空间的营造无疑是建筑中最核心与本质的问题,本文通过对西班牙建筑师阿尔贝托·坎波·巴埃萨建筑思想与作品以及三个建筑案例的详细分析,揭示了建筑“极少主义”表象下建筑师
随着我国社会转型和社会主义司法制度的不断发展,兴起于计划经济时代的调解制度已不能完全适应日益复杂的经济和社会发展要求,民事诉讼调解以法官主导调解为核心的一些弊端逐
<正>2016年,嘉实宝类产品依旧表现抢眼。来自Wind的数据显示,今年以来截至2月16日,139只互联网宝类产品中,嘉实活期宝以收益率0.478%的收益率排名第一。开放的平台让嘉实基金
工程教育专业认证是高等学校工程人才培养的重要抓手,高校开展认证工作对深化工程教育教学改革,加强专业内涵建设,不断提高人才培养质量具有积极影响。从学校顶层设计、理念
<正> 五倍子为倍蚜科昆虫角倍蚜和倍蛋蚜寄生在漆树科盐肤木或同属植物青麸杨等叶上形成的虫瘿。味酸、涩、性寒。为收敛固涩常用药,除供内服外,外用还有止汗止血、涩肠止遗
"精准医疗"顾名思义就是相对于传统意义的医学诊疗更加准确和精细,即致力于收集基因组学和其他分子信息为患者提供更加个体化的医疗服务,它的核心内容为个体化医学,为患者提
建立产品可追溯系统中,激光二维码信息安全性是产品信息保密的关键。本文提出的’Square’图像加密算法,主要由’Square’像素排列和改进的混合(‘Mixing’)操作等运算构成。此
受腐蚀构件承载力的计算是混凝土结构耐久性评估的关键。在实际工程中,许多混凝土结构不仅承受静荷载作用,还承受重复荷载作用。本论文从理论和试验对重复荷载下受腐蚀钢筋混
1950年代以来随着上海城市市区的产业结构调整,苏州河沿岸经历了一场逆工业化过程,其工业、交通设施和港埠纷纷由中心区向外迁移。这一现象曾一度使人们对苏州河今后的发展漠不