论文部分内容阅读
随着计算机网络的发展,电子文章逐渐繁荣。电子文章版权保护近年来也越来越受关注。电子文章版权保护的一个解决方案是,首先提取一个作者的写作特征,通过写作特征的比较来判断版权所属。目前作者特征提取方向的研究多集中在寻找新的更有效的特征上。如何更加有效的提取一个作者的写作特征仍是一件富有挑战性的工作。本文创新性的提出并建立了一个作者特征提取引擎模型,该引擎以某个作者某一类型的文章作为输入,以该作者在这一类型文章上的写作特征为输出。应用这个引擎模型,在可能的作者列表中,我们可以确定一篇文章倾向属于某个作者的可能性。作者写作特征提取引擎包含两个子引擎,训练子引擎和比较子引擎。训练子引擎以某个作者某一类型的文章作为训练数据,以该作者的写作特征指纹作为输出。比较子引擎以任意文本作为输入,以该文本属于某个作者的可能性作为输出。一个作者的写作特征指纹包括三部分:第一部分由那些表征性强的文本度量组成,第二部分有那些表征性相对较弱的文本度量组成。这两部分中的文本度量都很容易用数值或向量表示。剩下的那些不容易用数值或向量表示的复杂文本度量构成了第三部分。该引擎的处理过程大致如下:首先提取文本度量值,然后,分别比较提取处理的文本度量值和某作者写作特征指纹的三个部分,得到每部分的概率,最后给每个概率一个权重,计算最终结果。引擎的实现用了VC++和MATLAB两个环境,选择了205个文本度量。文本度量值的提取算法是在VC++中实现的,数据分析是在MATLAB中实现的。为了验证该引擎是否能很好的工作,我们选择了一些文本度量,做了简单的实验。实验结果表明,该作者写作特征提取引擎可以正确的指示出文章的作者。本文主要对英文文章进行特征提取。作者的特征通过各种语言学上特征和语言学度量来表示,并采用标准差和主成分分析法分析这些特征的有效性。