融合罪名分类的涉案新闻主题分析及匹配方法研究

来源 :王冠文 | 被引量 : 0次 | 上传用户:xy_lfr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着热点案件的发生而伴生的涉案舆情新闻迅速传播,涉案新闻的主题分析及匹配变得尤为重要,亦是舆情监测的重要组成部分。然而,由于涉案新闻的数据来源广泛,格式多样化,网络爬取的涉案新闻文本分布不均衡,文本结构和语义差异性大,并且含有较多冗余信息,常规的主题分析方法很难抽取出涉案新闻中具有涉案偏好的主题信息,同时也导致了涉案新闻文本匹配性能较差。本文首先过滤出爬取新闻中的涉案新闻数据;其次从规整法律文书数据中解析出罪名,并融合罪名分类辅助涉案新闻主题分析,旨在生成具有涉案偏好的主题信息;最后融合具有涉案偏好的主题信息与实体知识进行涉案新闻匹配,为涉案舆情监测提供技术支撑。主要完成以下研究工作:(1)构建涉案新闻的过滤、主题分析及文本匹配语料库本文基于Scrapy网络爬虫框架,利用Xpath网页解析方法,爬取热门站点的新闻文本和法律文书数据。构建解析规则对爬取的法律文书数据及近年的13个热点案件相关的新闻数据进行解析、标注和清洗,分别得到涉案新闻过滤、涉案新闻主题分析和涉案新闻匹配数据集。(2)提出了一种融入主题信息的涉案新闻PU学习过滤方法由于涉案新闻数据来源涉及各个领域,写作风格不统一,无法制定完备的涉案规则进行数据获取。因此,本文提出了一种融入主题信息的涉案新闻PU学习过滤方法。首先训练一个基于变分自编码器的主题模型,用于获取主题信息指导正负样本选择,其次将主题信息用于增强PU学习的迭代过程,旨在提高涉案新闻过滤的准确率。实验结果表明,本文所提方法在涉案新闻过滤任务中F1值领先1.8%。(3)提出了一种融合罪名分类的涉案新闻主题分析方法涉案新闻主题分析是抽取出涉案新闻中具有涉案偏好的主题信息,然而常规的主题模型很难抽取出具备涉案偏好的主题信息。因此本文提出一种融合罪名分类的涉案新闻主题分析方法,旨在生成具备涉案偏好的主题信息。由实验分析可知,本文所提方法相比基准模型,主题可解释性最大提升5%。(4)提出了一种融合罪名主题与实体知识的涉案新闻匹配方法由于涉案新闻数据来源广泛、内容表述多样化,导致涉案新闻文本语义、结构差异性增大,并且含有较多冗余信息,常规的文本匹配方法不能取得良好的性能。同时本文分析发现相同案件下的涉案新闻具有相似或相同的罪名主题与实体知识,由此本文提出一种融合罪名主题与实体知识的涉案新闻匹配方法。实验结果表明,本文所提方法相比基线模型F1值最大提升5.5%。(5)设计与搭建了涉案新闻主题分析及匹配原型系统当本章得到新的新闻文本时,分别输入系统中的涉案新闻过滤模型,涉案新闻主题分析模型和涉案新闻匹配模型,判断其是否涉案,分析涉案主题信息,并匹配于某一类热点案件,将其展示于用户,为舆情监测提供技术及平台支撑。
其他文献
目的:探讨丙酸氟替卡松联合大环内酯类抗生素在肺炎支原体(MP)感染伴喘息患儿中的治疗作用。方法:选取本院2021年2月~2022年3月住院治疗的肺炎支原体肺炎(MPP)患儿共80例为研究对象,随机分为红霉素组(40例)和联合治疗组(40例),红霉素组给予红霉素注射液输液治疗1周,联合治疗组在红霉素基础上加用丙酸氟替卡松雾化吸入1周,比较治疗前和治疗1周后两组临床症状体征评分、白介素(IL)-4、I
期刊
吸收解吸是一种典型的化工单元,在工业中广泛应用于制取产品、分离混合气体、废气治理等方面。吸收解吸实训装置有效衔接了仿真教学与工业实际生产之间的环节,为培养行业岗位需求的技能提供良好的平台。为提升吸收解吸控制精度、简化数据处理、实现系统的优化控制,本文采用上位机和下位机的方式构建控制系统。采用触摸屏和三维力控组态软件作为上位机实现双路控制,它们均可对装置中阀门状态、气泵状态进行远程监控和操作,实时显
期刊
带电作业技术是保证电力配送网络安全可靠连续运行、减少电网维护成本和提高供电质量的一项关键技术。我国已建成世界上规模最大的电网,但目前配网线路的带电检修作业仍几乎全部由人工完成,由于电网作业环境的复杂性和危险性,检修人员的生命安全得不到有效保证,事故伤亡率较高。近二十年来,国内外研究机构研制了多款配网带电作业机器人,举升机构将电动或液压机械臂举升至作业场景,操作人员在高空绝缘斗内或地面通过遥操作进行
学位
世界范围内生态系统的破坏和退化问题,使生态系统修复的工作得到了国内外学者的广泛关注。近年来,随着山水林田湖草生命共同体理念在中国被提出,并逐渐被推行,各组成要素的生态过程愈发被认为是相互影响、相互制约、以及不可分割的。生态系统的三个重要特征是整体性、综合性和系统性,由此,从综合的角度考虑生态系统修复应该更为科学。但是,目前生态保护修复分区的研究,仍然对于生态系统问题诊断的综合性考虑不足,未能彰显山
学位
肠道菌群与诸多人类重大疾病相关,比如,肝硬化、糖尿病、肥胖症、自闭症等,研究在不同条件下肠道菌群结构差异具有重要意义。传统聚类方法识别肠道菌群数据中结构模式时,对噪声敏感,运行时间长,无法处理不规则数据。而谱聚类不仅可以聚类任意形状的样本数据,能够收敛于全局最优解,对数据分布的适应性更强,计算量小,且具有更高的性能。因此本文采用谱聚类(Spectrum)方法来分析肠道菌群结构,以轻微肝性脑病和2型
学位
在实现“双碳”目标的背景下,我国“三西”地区受特殊能源资源开发条件与生态环境所限,尽管为国家经济发展提供了强大的能源支撑,但也为我国自然环境的演变贡献了大量的煤炭采空区与二氧化碳。回顾了“三西”地区煤炭采空区形成的历史原因,分析了实施能源“立体开发模式”的必要性与有利条件,提出该地区煤炭开采业应当加快转变发展模式,在政府的组织协调下与土地承包户建立合作关系,创造条件,高效利用采空区煤炭、土地、太阳
期刊
癫痫是一种慢性脑神经疾病,由神经元过度和瞬时放电引起。全世界有数百万癫痫患者,患者不仅生活质量降低,丧失生产力,还可能导致过早死亡。在医学上,头皮或颅内脑电图反映了头部表面的电活动,包含大量病理信息,是作为诊断癫痫的重要标准之一。目前大多采用时频域、非线性等方法研究癫痫脑电,易忽略脑电空间位置信息。微状态分析方法能获取脑电的时间动态信息和空间位置信息,被用于很多脑神经疾病的研究,然而患者脑电微状态
学位
骨质疏松症是由于骨吸收和骨形成之间的动态平衡被打破,从而导致骨质流失,骨密度降低以及骨骼微细结构遭到破坏所形成的一种慢性骨代谢疾病。近年来,越来越多的研究证明,外泌体疗法将成为骨质疏松治疗的一个重要方向。外泌体是参与细胞间通信的脂质双分子层细胞外囊泡,可通过传递脂质、蛋白质、核酸的方式调节受体细胞的生物活性。其来源十分广泛,可存在于各种生物体液中,也由多种动物细胞分泌,如间充质干细胞等。脂肪来源的
期刊
脑机接口(BCI)可以提供一种将大脑信息传递给外界的通信方式,完成与中枢神经系统和外设的直接交互。基于运动想象的脑机接口(MI-BCI)由受试者的心理活动驱动,脑电信号在健康人和患有神经肌肉疾病的患者等个体中容易检测到。目前,MI-BCI对脑控机器人,如康复机器人、护理床机器人、无人驾驶飞行器等起着重要的作用。多数的MI-BCI,主要向外设提供离散的逻辑控制命令,如简单的方向控制意图,这是通过识别
学位
目的 探讨腹腔镜卵巢囊肿切除术对卵巢囊肿(OC)患者卵巢功能及生活质量的影响。方法 选取我院2019年1月至2020年12月收治的100例OC患者作为研究对象,以随机数字表法将其分为传统组(50例,传统开腹手术)和腹腔镜组(50例,腹腔镜卵巢囊肿切除术)。比较两组患者的临床指标、术后1年内的妊娠率和流产率、性激素水平、卵巢形态和功能指标、生活质量。结果 腹腔镜组的手术时长、卧床时长、住院时长均短于
期刊