基于语言风格的邮件分析问题

来源 :科学与财富 | 被引量 : 0次 | 上传用户:wryktt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:作者识别是一个应用广泛的研究领域,可以应用于中外文学作品的作者考证领域,也可以应用于版权保护、恶意邮件识别等信息安全领域【1】。本文主要研究如何通过电子邮件的语言特征来识别作者的问题。在众多邮件当中,根据语言风格的分析,确定作者。“风格”是指由于作者的生活经历、艺术素养等造成的不同的创作特色,而语言风格是作家通过作品表现出来的创作语言特有的格调。我们将要进行的作者识别过程其实是一个文本分类的过程。文本分类是对文本集按照一定的分类体系或标准进行自动分类标记,属于一种基于分类体系的自动分类。已有的文本分类算法有:决策树、神经网络、k近邻、朴素贝叶斯、遗传算法和支持向量机等。文本的分类通过分析电子邮件的语言特征实现,作者的语言特征是长期形成的行文习惯在写作活动中的体现。我们通过统计的方法用某些数量特征表现作者的行文风格,从例如词长、句长、词频,以及修辞、句法等不同角度综合体现。我们运用支持向量机结合语言风格学的方法分析邮件的作者归属问题。
  关键词:作者识别支持向量机语言特征
  1.问题分析
  问题要求基于电子邮件的语言特征来识别作者。每位作者在书写时会体现出不同的行文风格,我们选取一些不同的角度对每位作者的邮件文本进行分析。分析过程包括:文本预处理、词频统计、文本特征的抽取、分类器的训练。
  2.假设
  1.假设邮件的主要内容主要集中在后半部分。
  2.假设文本中词与词之间的关系是相互独立的。
  3.1文本预处理
  文本预处理是我们进行词频统计和文本预处理的第一步,只有对文本进行预处理,才能对邮件的词频进行统计,对训练集进行有效的训练。首先进行词干化,词干化是将所有形式的衍生词脱离各种各样的词性和语法变化,提取出共同的主干,变为统一的词根,降低文本特征的维数,便于接下来的处理。如:effective→effect等。
  过滤停用词和稀有词:通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on'等。
  3.2特征选择
  3.3文本表示模型
  对于计算机而言,如果要进行文本分类,那么需要将文本表示成计算机能够处理的形式,我们选择的表示模型为向量空间模型,这也是最常用的一个模型。向量空间模型(VSM)是指将每篇文档表示成一个向量,各个特征词的词频作为向量中的一个元素,语料库中所有的文档构成一个矩阵。
  3.4特征权重表示
  在将文档用向量空间模型表示后,还需要给每个特征词赋予一定的权重,以矩阵的形式交给计算机去处理。布尔权重是常用的文本特征权重表示方法。布尔权重基于简单的二元判定标准,定义十分直观。
  3.5分类方法统计
  K-近邻法:K-近邻法(KNN)因算法简单、易于实现、不需要估计参数、分类精度高等优势,已成为模式识别和统计学领域最著名的算法之一,也是机器学习中最早应用于自动文本分类的非参数算法之一。
  朴素贝叶斯法:朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。
  3.6分类器训练
  为了准确的预测邮件的作者,我们首先对分类器进行训练。我们选取样本的75%作为训练集使训练器更具有准确性,剩下的25%作为测试集,检验分类器的正确性。
  参考文献:
  [1]万晶.中文作者识别方法研究[D].湖南大学,2012.
  [2]刘明勇.基于寫作风格学的作者识别技术研究[D].浙江大学,2013.
  [3]吴寅雪.欧美科普作品的词法特征及其翻译[J].校园英语(中旬),2015,(7):237-238.
  [4][期刊论文] 苏佩娟,刘赪,牟建波,王丽梅,SU Peijuan,LIU Cheng,MU Jianbo,WANGLimei- 《西华大学学报(自然科学版)》2017年4期
其他文献
摘要:深基坑工程建设是一个重要的施工环节相对于项目建设来说,特别是在高层建筑项目而言,挖掘深度,支护质量、开挖顺序等一系列的施工工艺。建筑项目相关的服务寿命的体现,需要从工程实际出发,本文结合工程实例分析,分析深基坑工程支护及开挖施工要点,打造放心工程。  关键词:深基坑工程;支护;开挖;施工要点  0导言  通常情况下,如果基坑的深度在10m或者5m之内,则可以应用搅拌桩与土钉墙支护技术。如果施
期刊
3.解放军78366部队财务助理员 曲靖 655100)  摘要:基金会计模式以基金会计和报告作为主体,能够体现专款专用的原则,有利于加强单位对财务资源的管理和使用,能够更加有效地履行受托责任。本文首先对美国基金会计模式进行论述,再提出基金会计模式对我军的启示,以此希望能够为我军会计改革开辟新的发展方向,从而提高军费的使用效率,强化军队单位的受托责任。  关键词:基金会计;会计模式;受托责任  近
期刊
摘要:现如今化工产品渗透在我们生活的方方面面,化工生产也是现如今生产中极为重要的一部分。要想生产出合格、高质量的产品,化工机械设备很重要。化工机械的设备的质量和性能直接关系着化工产品的质量,也就直接关系着人们的生命财产安全。故本文就基于此,深入探讨化工机械设备安全工程质量控制问题,并具体分析了其中存在的问题,也相应地提出了一些解决的措施,希望对提高化工机械设备安装工程的质量有一定帮助。  关键词:
期刊
摘要:我国城市道路里的照明灯具在节约电力方面有很大的潜力。由于路灯在不同电压下的光电参数和寿命长短特性有很大差异,所以可以推算出城市里道路照明灯具在不同情况下的最合适的供电电压,上半夜的最佳电压即为额定电压,下半夜的最佳电压则要略小于额定电压为200V。可以通过这一原理组成V/V0变压器-路灯的照明节电系统装置,这一系统不用增加变压器或电抗器等控制设备,更利于城市中的安装和使用。  关键词:照明供
期刊
摘要:社会经济的发展,促使电力资源的需求量迅速增加。由于电力本身对于人体有一定的危险,若频繁出现人体与之接触现象,会造成诸多安全隐患。因此文章就输配电及用电工程线路的安全运行对策展开分析。  关键词:输配电线路;用电工程线路;安全运行;对策  输配电的工程承载着社会电力供给的重要责任,其运行的状态就决定了社会各层级用电的质量。但是输配电工程常与野外环境接触,致使其容易受到许多因素的干扰,例如植物生
期刊
摘要:从我国经济发展趋势来看,现代化建设水平不断提高,同时档案工作也有了明显的变化,现有的档案信息化已经成为发展的潮流,它和以往的档案信息化管理工作相比较来看,现代化档案工作效率有了明显的提高,但是,其在发展的同时,也存在一些问题,比如说,网络技术的发展给安全带来不利的影响,所以,就需要制定完善的措施来解决问题。  关键词:档案信息化管理;安全问题;措施  我国步入到新世纪以来,现代化学科学技术水
期刊
摘要:水利工程的建设与人们生活具有密切联系,且该工程质量的好坏会对人们的生命财产安全带来严重影响。对此,则需要施工单位注重施工技术的应用,保障工程质量。基于此,本文主要就对水利工程施工技术中所存在的问题进行探讨,并就此提出相应的解决措施。  关键词:水利工程;施工技术;存在问题;解决措施  虽然在社会经济发展的驱动下,我国建筑行业获得较大的发展,但是在具体工程施工上,因受到多方面因素的影响,使得工
期刊
摘要:氨基甲酸酯类农药并不是剧毒化合物,但具有致癌性,国际癌症研究机构在2007年把氨基甲酸酯类列为2A类致癌物。本文以国标中的前处理方法--SPE固相萃取法与QuEChERS法进行比较,探讨水果中8种氨基甲酸酯类农药残留前处理方法应用的简便适应性。  关键词:SPE;QuEChERS;液相色谱-串联质谱;农药残留  一.引言  氨基甲酸酯类农药,无特殊气味,在酸性环境下稳定,遇碱分解,具有选择性
期刊
摘要:LINUX是一个多用户多任务的操作系统,系统中一切资源都表示为各类文件,控制文件管理权限,有利于系统正常运行,以及各类用户对自已所属的文件有效控制。  关键字:LINUX操作系统;文件分类;管理权限  在当前的操作系统发展进程中,支持开源代码、应用程序自主选择安装,满足个性化需求,是未来发展方向。而目前三个主流(WIN、IOS、LINUX)操作系统,只有LINUX符合发展要求,无论是在服务器
期刊
摘要:氟原子因为其特殊的化学结构,有着其独特的特点,并在许多方面起着重要的作用。以含氟化学物及其中间体所生产出来的精细化学物及其衍生品,在我国的化学领域中,有着重要的研究价值,含氟化学物及其中间体在使用时只需要使用少量就能发挥出极大的效果,有着经济性和高效性,并且氟原子的化学结构稳定,这使它的化学物及其中间体能够快速且大量的溶解在脂质物质中,并且排斥水性物质,具有极高的使用价值,因此,势必要对含氟
期刊