中文Web信息作者同一认定技术研究

来源 :河北农业大学 | 被引量 : 6次 | 上传用户:linmu22952
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益普及,网上出现了各种各样的Web信息,比如:网上论坛、博客、电子邮件等,这些信息成为人们生活和工作中重要的信息来源。然而,这些Web信息给人们带来便利的同时,也产生许多问题,比如:某些人通过网上论坛、博客及电子邮件等手段发布反动、诈骗、色情、威胁、赌博等违法信息,网络为违法犯罪分子提供了新的犯罪空间和手段,造成极其恶劣的影响,严重影响社会的稳定以及国家和政府的安全。目前,抵制这种现象的主要方法就是安装过滤软件,把包含敏感词汇的信息过滤掉,但是,这种被动防御的方法不能杜绝非法Web信息的现象,因为,犯罪分子会使用一些替代词汇,突破过滤软件的防御。通过立法手段,追究犯罪分子的刑事责任,可以有力地打击这种犯罪行为,国家已经出台多项相关法律,有法可依,但是,由于缺乏有效的证据,而使类似案件无法立案侦查。如果能同一认定Web信息的作者,找出犯罪分子的犯罪证据,为计算机取证提供证据,对司法办案和促进社会的安全与稳定、净化网络环境都具有重要的应用价值和现实意义。本文利用写作风格学的原理和技术,研究Web信息作者的写作风格,提取能代表作者写作特点的写作特征,利用机器学习算法自动辨别出作者的真实身份。本文的研究集中在以下几个方面:(1)对Web信息作者身份识别相关研究领域的国内外现状进行了全面、详细地调研和分析,提出Web信息作者身份识别的系统模型和系统框架;(2)针对Web页面和E-mail信息,提出本文对Web信息内容的提取方法;(3)提取能表达Web信息作者的写作特点的三方面特征,包括语言特征、结构特征和格式特征;(4)对支持向量机算法进行了改进,提出基于相似度的渐进直推支持向量机算法(PSTSVM),使其适合小样本分类识别;(5)研究和开发了中文Web信息作者识别实验系统;(6)为了调查犯罪分子的社会关系,对社会关系网络进行了研究,提出了基于作者身份真实性判断的社会关系网络建立方法。为了验证本文提出的研究方法的有效性,搜集大量数据,设置多个实验,对本研究各种影响因素进行了验证。实验结果表明,本研究提出的三种特征提取方法是有效的,而且各种特征的特征组合比用单个特征的效果更好,文学作品、Blog、电子邮件数据集的分类识别正确率超过86%,实验结果表明本研究所提出的方法是有效的,此方法用于计算机取证是切实可行的。
其他文献
目的探讨家庭协同式护理干预模式对小儿病毒性心肌炎患儿心理行为的影响。方法选取2014年9月~2015年8月我院收治满足相应要求的病毒性心肌炎患儿100例作为调查对象,将其随机
<正>在现代社会逐渐发展的今天,大部分人对于饮食的要求从过去的"满足温饱"转变为"搭配营养",这是对生活质量的要求。酒店作为旅途中必不可少的驿站,食品安全和营养问题一直
比较载体定量法与悬液定量法对检测二氧化氯消毒剂杀菌效果的区别,在实验室进行了观察.结果,用载体定量杀菌试验,以含200 mg/L二氧化氯消毒剂溶液对大肠杆菌作用3 min ,杀灭
<正> 人们一说到诸葛亮和刘备的关系时,就会想到“三顾茅庐”、“白帝托孤”这些脍炙人口的故事,认为它们是二人关系亲密友好的象征,是三国时代的特殊产物.其实,它们既不是三
目的:儿科部分急危重症、肥胖、重度脱水、输液时间较长的患儿,因四肢及头皮静脉穿刺困难,给抢救和治疗带来影响,为抢救患儿生命赢得时间,减少反复穿刺给患儿带来痛苦。方法:总
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
一、实验方案的设计1、实验假设我们在实验方案中提出:重参与,多激励,缓梯度,常复现,分类导,勤检测,全方位,促合格”的二十四字方针,它包含了以下几种教育思想和原则:(1)学生
目的:探讨运用网络等资源对脑卒中二级预防的护理干预的可行性与有效性。方法:选择240例脑卒中患者为研究对象,随机分为干预组130例与对照组110例。对两组患者建立档案,详细
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield