端到端的中文评论众包攻击与防御方法

来源 :武汉大学 | 被引量 : 0次 | 上传用户:secretcode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对在线评论社区自媒体影响力增加,带来的众包活动恶意影响舆论与竞争对手口碑的场景,提出了一种端到端的中文评论自动化众包攻击方法。自动化众包攻击方法通过生成大量高质量、主题符合、倾向性一致的中文众包评论,来达到引导舆论、改变商家口碑等众包活动的目的。本文攻击方法包括两个部分组成,批量文本生成模型与数据集质量提升模型。其中,批量文本生成模型分为三个子网络组成,汉字嵌入网络、堆叠LSTM网络、Softmax抽样网络,该模型通过从真实评论集学习和分析,达到生成大量中文众包评论的目的;数据集质量提升模型分为两个子模块,主题建模模块、倾向性分析模块,针对堆叠LSTM网络对数据集质量依赖性较大的问题,该模型聚合评论数据集中的主题与倾向性,提升数据集质量。然后,本文给出了四种应对众包攻击的防御方法,包括基于语言学分析的防御方法、基于指纹信息比较的防御方法、用户调查研究、基于概率分布的防御方法。其中,基于语言学分析的防御方法和基于指纹信息比较的防御方法是目前众包平台使用广泛的众包评论检测方法,实验表明本文提出的自动化众包攻击可以轻松绕过这两种防御方法;用户调查研究通过人工调查问卷的方式,最直观地考量本文生成的众包评论是否具有引导舆论的内容价值,实验表明本文生成的众包评论可以混杂在真实评论中不被轻易识别;基于概率分布的防御方法是针对本文攻击方法提出的一种对应防御策略,通过比对数据集中汉字概率分布相似度的方式,来识别评论是否为生成的众包评论,实验结果表明该防御策略表现出优于前两种防御方法的效果。本文的主要主要工作贡献由以下三块内容组成。1)针对英文评论与中文评论在组织结构上的不同,在传统英文文本生成模型的基础上,增加汉字嵌入网络和Softmax随机抽样网络,来达到批量生成具有一定语义内容的中文评论,构建自动化众包攻击方法的目的。汉字嵌入网络基于降维与嵌入的思想,将汉字字符对应的长one-hot向量降维至短嵌入向量,新的嵌入向量包含了汉字字符间的语义关联关系,能够更好地用以文本生成模型。同时又讨论了字符嵌入方法与词汇嵌入方法在自动化众包攻击场景中的优缺点,词汇嵌入能更好表达语义,但汉字嵌入更适合模仿新颖词汇快速更新的在线评论。另外,Softmax抽样网络基于Softmax分层函数的思想,新增温度参数T来控制生成众包评论质量与多样性的平衡,温度参数T越小,则生成的中文众包评论更加接近真实评论,但整个生成众包评论集的多样性会下降,包含的众包评论类型会较为单一。温度参数T越大,则生成的众包评论更加具有创新性,文本内容更加多样,但是每条众包评论更容易出现错误词汇,语义不连贯的问题。最后在实验中讨论了温度参数T最合适的区间。2)针对堆叠LSTM网络对评论数据集质量依赖性较高的问题,提出了一种提升数据集质量的方法,包括基于NMF算法的主题建模模块和基于SACI算法的倾向性分析模块。针对自动化众包攻击的特殊场景,两种策略都为无监督策略。NMF算法将数据集划分为不同的主题,并提取主题所对应的关键词集,来提升数据集的主题一致性。其中SACI算法计算中文评论中的情感倾向性,进一步划分数据集,来提升数据集的倾向性一致性。最后在实验中讨论了原始数据集存在星级和倾向性与评论文本内容本身不一致的问题,实验表明改进数据预处理步骤可以过滤掉一部分垃圾评论,自动化提取评论主题与倾向性,提升评论数据集质量。3)针对自动化众包攻击的防御问题,给出了四种防御方法。其中,基于语言学分析的SVM分类方法是众包评论检测的主要手段,实验表明当温度参数T取0.8至1.2之间时,SVM分类器无法正确区分生成的众包评论与真实评论;基于指纹信息比较的防御方法是识别众包评论的另一手段,实验表明众包评论并不是简单地从原数据集复制而来,而具有一定的创新性;用户调查研究从人工的角度分析众包评论的内容影响力,实验表明生成的众包评论可以混杂在真实评论中而不被识别;基于概率分布的防御方法从数据集中汉字概率分布相对稳定的角度出发,实验表明该防御方法有比前两种防御方法更优良的表现。本文面向中文评论社区,针对端到端的自动化众包攻击与防御方法进行了一系列研究。本文研究不仅可以用于在线评论社区的自动化众包攻击场景,也可以应用于各种中文短文本生成的攻击场景,例如虚假短新闻,短谣言的攻击场景等。本文研究是对网络空间安全中自媒体恶意竞争领域的重要补充。
其他文献
随着生活水平的提高,人们对物质生活和精神生活的追求都愈加强烈,对旅游的需求也越来越多。花卉旅游在满足人们精神需求的同时,还能愉悦心情、减缓压力、开阔视野、品尝美食、进行花文化体验等,所以受到消费者的青睐。百里杜鹃景区拥有天然的杜鹃花林资源,在开发花卉旅游产品上有得天独厚的条件。本课题通过对国内外对花卉旅游产品开发现状的分析,为百里杜鹃景区花卉旅游产品开发在国家倡导发展绿色环保产业,加强生态保护修复
乡村治理、乡村振兴以及各项方针政策都需要村干部作为领军人来具体执行和落实。村干部战斗在基层的最前线,不属于国家行政体系、区别于公务员,但却行使着公共权力、管理着公共事务、提供着公共服务。在农村基层治理的乡治与村治二元结构中,随着乡村治理形态演变,村干部职能定位发生了变化。顺应时代发展,我国推行了村干部职业化改革,实行村干部坐班制,要求村干部“朝九晚五”上班,按照乡镇机关管理办法考核村级日常工作,要
旅游地产在国内正处于快速发展期,贵州省近年来更是大力发展旅游产业。山禾源公司作为地处织金县的地产公司,紧紧抓住机遇发展旅游地产项目,开发平远地产项目,具有巨大的优势,但是如何将优势转化为实质上的收益,将平远地产项目打造成精品,成为公司的重要盈利项目,则取决于公司采取的营销策略。本文通过文献研究法、统计分析法、实地调查法等研究方法,以平远地产项目作为研究对象,对平远地产项目营销策略进行了分析和研究。
随着大数据、互联网的迅猛发展,在竞争日趋激烈的金融行业,面对利率市场化和资管新规等多方面变化,银行零售业务成为了新的利润增长点。如何降低成本,提高营销效率,改善客户体验,拓宽获客渠道,实现批量获客,成为很多银行业务转型的突破口。本文以SWOT分析法、STP理论和4P理论为基础,通过使用SWOT分析G银行批量获客营销环境,探索银行零售业务获客营销方式中,批量获客营销有何特色,如何开展,效果如何,总结
web安全漏洞是危害web系统安全重要原因,因此对web系统进行安全检测尤为重要。现有的web安全测试研究方向主要分为模糊测试以及白盒代码审计。然而现有的web模糊测试主要作为web系统发布后的一种黑盒或者灰盒的测试手段,其测试效果有限。而白盒代码审计依托大量的源码信息,取得的效果良好,但其核心技术符号执行需要消耗大量的时空资源。针对上述问题,本文认为web安全测试的效果以及时间需要取得平衡。因此
目的:本研究旨在观察十溴联苯醚(PBDE-209)染毒对成年大鼠的空间学习记忆能力、海马组织中谷氨酸受体NR1,NRB和Glu R1亚基蛋白的表达和NR2B亚基Ser1303位点和Glu R1亚基Ser831位点磷酸化的影响,探讨PBDE-209影响大鼠空间学习记忆的潜在机制。方法:将32只10周龄的雄性SD大鼠随机分配为四个组,即1个溶剂对照组和3个PBDE-209染毒组(低,中和高剂量组),每
自从党的十八大以来,高压反腐范围已获得广泛社会认知,广大学者也围绕着贪污罪的定罪和量刑展开过激烈讨论,我国立法致力于完善贪污罪判决的相关规定,也取得了巨大的进展和突破。《刑修(九)》出台将“确定入罪金额”的刚性定罪量刑模式修改为“概括数额+情节”的弹性定罪量刑模式,立即引起学术界和实务界的高度重视,后为应对实务操作中犯罪数额与情节的适用困难,《贪贿解释》再一次将概括化数额具体化,再次变回“确定入罪
国际会计准则理事会(IASB)发布了《国际财务报告准则第9号——金融工具》(IFRS9),全面取代以前的IAS39。这标志着金融工具会计准则的一项重大成就的达成。该准则将金融工具的减值、套期保值、合同现金流概念、信用减值模型等全盘纳入。相应的,中国会计准则(CAS)紧跟国际,依据IFRS9,重新修订了适用于中国的新金融工具会计准则系列:《企业会计准则第22号——金融工具确认和计量》(CAS 22)
整合组建生态环保综合执法职能部门是深化党和国家机构改革的合作型政府模式,同样也是改革生态环保执法体制的重要内容。通过贯彻落实中央到地方深化行政执法部门改革的具体措施,对于加快推进地方生态环保领域国家治理体系和治理能力现代化具有重要意义。当前,在生态环保领域推行公共服务合作生产方式的综合执法是我国现行条块结合管理的创新模式,在没有特定的综合执法法律法规支撑下,生态环保综合执法走出了全新的探索之路。众
贵州区域农业品牌化发展具有突出的自然地理优势、特色鲜明的产业及市场认可度高的产品等,也存在区域农业品牌化意识有待提高、整体品牌化缺乏合力、品牌维护机制不健全等政策延续性和适应性问题。综合运用文献法、案例法,通过中国知网查阅国内外有关政府作用下的区域农业品牌化现状和存在问题及对策的文献,引入如农产品区域公用品牌、政府职能与作用、公共产品理论、外部性理论等相关概念和理论,以理论联系实际,从内涵、意义等