基于邮件正文的邮箱用户别名抽取

来源 :计算机科学 | 被引量 : 0次 | 上传用户:erywwb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
邮箱用户身份信息挖掘是数据挖掘研究的一个热点。当前相关研究大多仅从邮件头中抽取邮箱用户的别名,遗漏了邮件正文中潜藏的更能代表通信双方身份的别名信息。针对纯文本邮件正文中邮箱用户别名信息抽取问题,提出了基于统计和规则过滤的称呼块和签名决定位算法,该算法能高效准确地从邮件正文中提取出蕴涵邮箱用户别名的称呼块和签名块文本片段;进一步提出了基于别名边界词汇模板修正的别名抽取方法,从而提高了仅基于命名实体识别或词性标注工具识别别名的准确率。实验结果表明,提出的方法可以有效地抽取出邮件正文中邮箱用户的别名。
其他文献
研究了一种新的二值图像隐藏方案,即将一幅二值图像隐藏在多幅载体图像中。针对二值图像取值形式为二值的特点,该方案第一次把变长游程编码算法、多重秘密共享思想和DCT域的
可重构计算系统中,二维可重构硬件任务的布局布线问题是影响系统资源利用率的重要因素。在异质化的可重构器件和任务模型基础上,对可重构硬件任务进行了适当分类,并提出一种
内存腐烂攻击在软件安全攻击中占据着较大的比重。近来,动态着色技术得到了越来越多的关注,这种技术通过在访问内存时检测指针的完整性来抵御攻击。然而,存在一类可以绕过指针完
空间数据库的索引结构是实现有效数据查询的前提和基础。空间数据反向近似近邻查询是空间查询的一个新方向,它避免了精确查询中过多的距离计算,从而能够在效率与准确性上取得平
在外包数据库运行模式下,由第三方提供的数据库服务器处于非信任域,存在数据文件盗版、数据内容篡改等安全风险。构建了一个基于信息隐藏技术的外包数据库版权保护系统,综合运用
由于图像的低层特征与高层语义之间存在着语义鸿沟,以及用户对图像理解的主观性和易变性,使得基于内容的图像检索结果不能很好地满足用户的需求。为解决这个问题,将粒子群算
人工免疫系统作为一种计算智能方法,具备强大的信息处理和问题求解能力,检测器集的生成是构造人工免疫系统的关键技术,也是智能计算研究的热点之一。分析了传统免疫检测器生成算