论文部分内容阅读
摘要:作者识别是一个应用广泛的研究领域,可以应用于中外文学作品的作者考证领域,也可以应用于版权保护、恶意邮件识别等信息安全领域【1】。本文主要研究如何通过电子邮件的语言特征来识别作者的问题。在众多邮件当中,根据语言风格的分析,确定作者。“风格”是指由于作者的生活经历、艺术素养等造成的不同的创作特色,而语言风格是作家通过作品表现出来的创作语言特有的格调。我们将要进行的作者识别过程其实是一个文本分类的过程。文本分类是对文本集按照一定的分类体系或标准进行自动分类标记,属于一种基于分类体系的自动分类。已有的文本分类算法有:决策树、神经网络、k近邻、朴素贝叶斯、遗传算法和支持向量机等。文本的分类通过分析电子邮件的语言特征实现,作者的语言特征是长期形成的行文习惯在写作活动中的体现。我们通过统计的方法用某些数量特征表现作者的行文风格,从例如词长、句长、词频,以及修辞、句法等不同角度综合体现。我们运用支持向量机结合语言风格学的方法分析邮件的作者归属问题。
关键词:作者识别支持向量机语言特征
1.问题分析
问题要求基于电子邮件的语言特征来识别作者。每位作者在书写时会体现出不同的行文风格,我们选取一些不同的角度对每位作者的邮件文本进行分析。分析过程包括:文本预处理、词频统计、文本特征的抽取、分类器的训练。
2.假设
1.假设邮件的主要内容主要集中在后半部分。
2.假设文本中词与词之间的关系是相互独立的。
3.1文本预处理
文本预处理是我们进行词频统计和文本预处理的第一步,只有对文本进行预处理,才能对邮件的词频进行统计,对训练集进行有效的训练。首先进行词干化,词干化是将所有形式的衍生词脱离各种各样的词性和语法变化,提取出共同的主干,变为统一的词根,降低文本特征的维数,便于接下来的处理。如:effective→effect等。
过滤停用词和稀有词:通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on'等。
3.2特征选择
3.3文本表示模型
对于计算机而言,如果要进行文本分类,那么需要将文本表示成计算机能够处理的形式,我们选择的表示模型为向量空间模型,这也是最常用的一个模型。向量空间模型(VSM)是指将每篇文档表示成一个向量,各个特征词的词频作为向量中的一个元素,语料库中所有的文档构成一个矩阵。
3.4特征权重表示
在将文档用向量空间模型表示后,还需要给每个特征词赋予一定的权重,以矩阵的形式交给计算机去处理。布尔权重是常用的文本特征权重表示方法。布尔权重基于简单的二元判定标准,定义十分直观。
3.5分类方法统计
K-近邻法:K-近邻法(KNN)因算法简单、易于实现、不需要估计参数、分类精度高等优势,已成为模式识别和统计学领域最著名的算法之一,也是机器学习中最早应用于自动文本分类的非参数算法之一。
朴素贝叶斯法:朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。
3.6分类器训练
为了准确的预测邮件的作者,我们首先对分类器进行训练。我们选取样本的75%作为训练集使训练器更具有准确性,剩下的25%作为测试集,检验分类器的正确性。
参考文献:
[1]万晶.中文作者识别方法研究[D].湖南大学,2012.
[2]刘明勇.基于寫作风格学的作者识别技术研究[D].浙江大学,2013.
[3]吴寅雪.欧美科普作品的词法特征及其翻译[J].校园英语(中旬),2015,(7):237-238.
[4][期刊论文] 苏佩娟,刘赪,牟建波,王丽梅,SU Peijuan,LIU Cheng,MU Jianbo,WANGLimei- 《西华大学学报(自然科学版)》2017年4期
关键词:作者识别支持向量机语言特征
1.问题分析
问题要求基于电子邮件的语言特征来识别作者。每位作者在书写时会体现出不同的行文风格,我们选取一些不同的角度对每位作者的邮件文本进行分析。分析过程包括:文本预处理、词频统计、文本特征的抽取、分类器的训练。
2.假设
1.假设邮件的主要内容主要集中在后半部分。
2.假设文本中词与词之间的关系是相互独立的。
3.1文本预处理
文本预处理是我们进行词频统计和文本预处理的第一步,只有对文本进行预处理,才能对邮件的词频进行统计,对训练集进行有效的训练。首先进行词干化,词干化是将所有形式的衍生词脱离各种各样的词性和语法变化,提取出共同的主干,变为统一的词根,降低文本特征的维数,便于接下来的处理。如:effective→effect等。
过滤停用词和稀有词:通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on'等。
3.2特征选择
3.3文本表示模型
对于计算机而言,如果要进行文本分类,那么需要将文本表示成计算机能够处理的形式,我们选择的表示模型为向量空间模型,这也是最常用的一个模型。向量空间模型(VSM)是指将每篇文档表示成一个向量,各个特征词的词频作为向量中的一个元素,语料库中所有的文档构成一个矩阵。
3.4特征权重表示
在将文档用向量空间模型表示后,还需要给每个特征词赋予一定的权重,以矩阵的形式交给计算机去处理。布尔权重是常用的文本特征权重表示方法。布尔权重基于简单的二元判定标准,定义十分直观。
3.5分类方法统计
K-近邻法:K-近邻法(KNN)因算法简单、易于实现、不需要估计参数、分类精度高等优势,已成为模式识别和统计学领域最著名的算法之一,也是机器学习中最早应用于自动文本分类的非参数算法之一。
朴素贝叶斯法:朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。
3.6分类器训练
为了准确的预测邮件的作者,我们首先对分类器进行训练。我们选取样本的75%作为训练集使训练器更具有准确性,剩下的25%作为测试集,检验分类器的正确性。
参考文献:
[1]万晶.中文作者识别方法研究[D].湖南大学,2012.
[2]刘明勇.基于寫作风格学的作者识别技术研究[D].浙江大学,2013.
[3]吴寅雪.欧美科普作品的词法特征及其翻译[J].校园英语(中旬),2015,(7):237-238.
[4][期刊论文] 苏佩娟,刘赪,牟建波,王丽梅,SU Peijuan,LIU Cheng,MU Jianbo,WANGLimei- 《西华大学学报(自然科学版)》2017年4期