作者写作特征提取引擎

来源 :山东大学 | 被引量 : 0次 | 上传用户:erbin517
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的发展,电子文章逐渐繁荣。电子文章版权保护近年来也越来越受关注。电子文章版权保护的一个解决方案是,首先提取一个作者的写作特征,通过写作特征的比较来判断版权所属。目前作者特征提取方向的研究多集中在寻找新的更有效的特征上。如何更加有效的提取一个作者的写作特征仍是一件富有挑战性的工作。本文创新性的提出并建立了一个作者特征提取引擎模型,该引擎以某个作者某一类型的文章作为输入,以该作者在这一类型文章上的写作特征为输出。应用这个引擎模型,在可能的作者列表中,我们可以确定一篇文章倾向属于某个作者的可能性。作者写作特征提取引擎包含两个子引擎,训练子引擎和比较子引擎。训练子引擎以某个作者某一类型的文章作为训练数据,以该作者的写作特征指纹作为输出。比较子引擎以任意文本作为输入,以该文本属于某个作者的可能性作为输出。一个作者的写作特征指纹包括三部分:第一部分由那些表征性强的文本度量组成,第二部分有那些表征性相对较弱的文本度量组成。这两部分中的文本度量都很容易用数值或向量表示。剩下的那些不容易用数值或向量表示的复杂文本度量构成了第三部分。该引擎的处理过程大致如下:首先提取文本度量值,然后,分别比较提取处理的文本度量值和某作者写作特征指纹的三个部分,得到每部分的概率,最后给每个概率一个权重,计算最终结果。引擎的实现用了VC++和MATLAB两个环境,选择了205个文本度量。文本度量值的提取算法是在VC++中实现的,数据分析是在MATLAB中实现的。为了验证该引擎是否能很好的工作,我们选择了一些文本度量,做了简单的实验。实验结果表明,该作者写作特征提取引擎可以正确的指示出文章的作者。本文主要对英文文章进行特征提取。作者的特征通过各种语言学上特征和语言学度量来表示,并采用标准差和主成分分析法分析这些特征的有效性。
其他文献
框架技术与设计模式是J2EE中重要的软件重用技术,框架技术的应用提高了软件的开发效率,增强了系统的可重用性、健壮性和可伸缩性,几乎所有框架技术都会使用某种或多种设计模式。
随着移动通信特别是无线通信的发展,移动计算将成为一种重要的计算模式。这种计算所采用的设备多为便携式计算设备,例如笔记本、掌上电脑或个人数字助理等。由于移动计算环境
数字水印技术和数字签名技术是信息隐藏的两个重要分支,将标识作者版权的保护信息和认证信息嵌入到图像、音频、视频或软件等各种数字产品中,以达到区分非法拷贝传播和保护知
互联网技术的飞速发展对计算机存储系统性能和数据的可用性提出了越来越高的要求。新的基于IP的网络存储系统逐渐成为业界关注的焦点,在这种新的存储架构下,如何采用有效的数
地理信息系统(Geographical Information System,简称GIS)以数字化的形式反映人类社会赖以生存的地球空间数据以及描述这些空间数据特征的属性数据,支持空间数据及其属性数据的
学位
与时间相关的数据库应用需求的不断增长,使得时态数据库设计成为非常重要的问题。由于现实世界中的许多应用所涉及到的时态类型集都能满足全序关系,而具有全序时态类型集的全
迁移工作流是近年来工作流技术发展的一个新方向。迁移工作流引擎、迁移实例和工作位置是构成迁移工作流管理系统的三要素。迁移工作流引擎完成工作流过程定义、迁移实例生成
随着云计算技术的日益发展,越来越多的个人与企业开始使用廉价、便捷的云存储服务以转移运算与存储,该模式下,产生了大量的冗余数据。为了节省用户的上传带宽和云服务提供商
随着网络技术的迅猛发展,网络产生的数据量增速惊人,数据结构的复杂程度也越来越加剧,那么如何从海量复杂数据中挖掘出有用信息成为目前众多学者研究的热点问题。支持向量机(