基于TextRank算法的在线问诊多轮对话文本摘要研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:siany
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万物互联时代的到来,海量的数据和服务触手可及,带给人们诸多便利。在线医疗服务是众多线上服务中的一种,越来越多的人开始享受在线医疗服务,体验足不出户解决基本健康困扰。但是,随着接触信息的增多,也会出现信息过载,人们变得难以有效处理各类信息。如果能够通过文本摘要技术对在线医疗平台中的问诊记录进行精炼,医生、患者或者健康信息搜寻者都将获得更好的服务体验。近些年来,文本摘要技术倍受研究者的关注,伴随着自然语言处理技术的发展,文本摘要技术也有了很大的提升。TextRank算法是文本摘要技术中非常经典的一种基于图的方法,TextRank算法对文本语句排序的思路借鉴自谷歌用于对网页进行排序的PageRank算法。TextRank算法把文本拆分成语句,然后以语句为结点,构造无向有权图,结点之间边的权重用语句之间的相似度来表示。给定各个结点初始值,然后按照一定规律进行迭代,直至算法收敛。然后根据结点的值对语句的重要程度排序,选择重要程度靠前的语句构成摘要。本文研究在线问诊多轮对话文本的摘要方法,实现了经典的TextRank算法,并在此基础上进行算法优化。TextRank算法中,最核心的是语句之间相似度的计算,经典的TextRank算法通过统计共现词来计算语句相似度,本文的优化体现在通过预训练模型ERNIE实现语句向量化,然后计算余弦相似度作为语句的语义相似度。再进行一些其它的优化,从而算出语句的重要性并抽取构成摘要。本文的实验数据是从好大夫在线平台采集的19种疾病的问诊记录,预处理后的有效样本数据有14899条,并且每一条都含有医生写的病情摘要与结论。本文将每条样本中多轮对话的全部语句、不包含患者病历资料的语句以及只包含医生发出的语句分别作为输入数据,用经典的TextRank算法和改进后的算法进行摘要,最后通过ROUGE-L对输出的摘要质量进行评价。结果表明,改进后的算法的摘要效果有一定的提升。综合分析评价结果后,对在线问诊服务应用文本摘要方法提出了建议。
其他文献
随着世界各国人们生活水平的提高,化妆品行业成为可选消费领域最大亮点之一。该行业的最新发展趋势是功能性化妆品成为行业近几年来最大风口之一,成分党、轻医美等大行其道,消费者从过去的被动接受品牌营销到今天主动参与产品选择。同时,随着人们对美丽的要求越来越高,传统意义上的化妆品已经不能完全满足人们的需求,越来越多的人不仅仅关注美丽,而且逐渐开始关注如何健康的美丽。药妆品又以其独特的安全性和非致敏性,逐渐受
当今社会正处在科技水平高速发展的时代,就如习近平总书记讲话中提到的:“推动媒体融合发展、建设全媒体成为我们面临的一项紧迫课程。”在众多的网络社交平台中,微博是人进行社会社交、意见发表、信息获取,以及主题谈论的重要的虚拟社交平台,微博拥有极庞大的用户资源,在微博中所产生的网络舆情,对我们的现实生活也产生了巨大的影响。因此,在这种网络舆情形式紧张的状况下,对于网络舆论的监控也就尤为重要,而意见领袖与潜
经济的快速发展带来了上市公司并购数量的激增,同时在国家政策和资金投入的支持下,我国环保产业得到前所未有的关注,进入了发展的黄金时期。众多环保企业寻求转型,整合资源降低成本,打造环保一体化平台。环保行业内越来越多的企业加入并购活动中,环保企业并购的步伐加速。但是由于我国市场经济发展较晚,直到国有企业改革后国内资产评估行业才开始起步,企业价值评估理论不完善,同时作为新兴产业,环保企业还未受到广大学者的
近年来,我国遥感技术取得了高速发展,为我国环境保护及林业信息化发展提供了有力支撑,其中利用多时相的中高空间分辨率遥感数据开展大范围林地类型分类并进行林地资源动态变化监测成为研究的热点之一。本文以森林资源监测调查与森林环境保护为目的,基于最新国产卫星高分六号WFV(Wide Field of Field)数据,开展几何精度与分类精度的评价研究,并测试新增四个波段在林地类型分类研究中的应用潜力。利用国
2012年11月8日在北京召开的中国共产党第十八次全国代表大会是我国反腐败历程的一个重要里程碑。我国相继出台了一系列法律法规,第一次将腐败提升到法律范畴,大批的官员在反腐败政策出台后落马:2013年因腐败被查处的副厅级以上官员高达186人、其中副部级以上官员竟有18人,2014年相应被查处的人数均达到上年的两倍之多。中组发[2013]18号文件明确规范了党政领导干部在企业兼职(任职)问题的意见,再
傩,最初的形式是一种以驱鬼逐疫、求福纳吉为目的的原始巫术活动,是一种世界性的历史文化现象。傩戏所承载的民间艺术文化价值有着数千年之久,是我国民族民间文化中的瑰宝,傩文化作为中国传统文化中不可或缺的一个重要组成部分,其形式的衍变主要经历了傩仪——傩舞——傩戏这一具体的过程,在这个具体的衍变过程之中,傩文化由最初单纯的、纯粹的宗教祭祀性质,在历史的衍变过程当中,逐步融入一些民间民俗文化艺术,发展成为现
执行和解协议对生效裁判的效力影响的问题一直在理论界以片段式的方式进行着激烈的讨论,其中最为激烈的就是执行和解协议的法理理论、效力、可诉性问题以及执行和解协议诉讼后的程序设置和处理。2018年3月《执行和解规定》正式施行,在一定程度上缓解了执行和解协议的局面,但是对于执行和解协议如何另行起诉,如何协调执行和解协议与生效裁判之间的效力关系问题没有作出规定。在诉讼程序中法院已经对当事人的实体纠纷作出裁判
对河流物质通量的准确估算,可以让我们掌握河流各种物质输移的时空分布,为河道水环境治理工程提供决策依据。精确计算河流物质时段通量,理论上需要对该河段控制断面的流量和物质浓度做长时间连续观测。而在实际监测工作中,无法做到这一点。在我国,大中型河流水质测站的水质观测周期一般为1个月。以这些观测资料为基础,采用不同的年通量估算方法的准确性如何,一直是大家关心的热点问题。本文试图以观测较密的实测数据序列为基
纵观改革开放40年来教育变革的历程,我国教育事业取得了巨大的成就,我国教师队伍也在变革过程中不断成长和进步,同时教师作为教育变革的重要组成部分,影响着教育发展的进程,是决定教育变革成功与否的重要影响因素之一。本文主要围绕教师发展的历程展开,基于教育变革和教师发展的政策文本分析,探析教育变革和教师发展的关系,以及反思教育变革与教师发展实践与政策文本的相关性,尝试回应教师发展实践中的一些现实问题。本篇
“数字化学习与创新”是《普通高中信息技术课程标准》(2017年版)中明确提出的高中生必备的四个核心素养之一。为更好落实新课标指引下课程改革的建议,充分体现学科核心素养的理念,在教学模式上需解决两个根本问题:一是对“数字化学习与创新”等核心素养的认识不清晰;二是对如何围绕学科核心素养的理念进行教学设计和应用不明确。为此,本研究以高中阶段信息技术学科为基础,以四个核心素养之一的“数字化学习与创新”作为