朝鲜语多文档摘要生成的研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:lxhldc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,互联网对于人们的生活、学习、工作等方方面面,越来越不可或缺。多文档自动文本摘要任务的目标是从多个文本中,总结提炼出用户最关注的信息,从而减少用户搜寻相关信息的时间,提高用户获取信息的效率。朝鲜族是我国56个民族之一,朝鲜语是我国具有文字的少数民族语言之一。我国一直致力于朝鲜语信息技术标准化的研究工作。中英文自动摘要任务目前已经取得了显著的成果,但目前国内朝鲜语自动文摘技术探索较晚,目前还没有较为有效的方法。朝鲜语具有词尾形态变化丰富等特点,这为词向量的构建带来了一定的困难;还没有大规模的朝鲜语多文档自动文本摘要的语料库;关于多文档自动文摘的评价指标还不算完备,这都是多文档自动文本摘要发展的研究难点。所以,对朝鲜语多文档自动文本摘要进行研究,具有十分重要的意义。本文提出了一种朝鲜语多文档自动摘要的方法,本文的主要创新点为:(1)为了解决朝鲜语词向量语义表示能力不足的问题,本文提出了一种朝鲜语词向量的表示方法——形态素词向量(MorV),先将语节拆分成多个形态素(变换原形)的组成形式,再对拆分好的形态素进行词向量训练。上述方法考虑了朝鲜语的形态信息,训练得到的词向量语义表示能力强;(2)句子相似度度量是很重要的上游任务,本文提出了一种基于融入子词级别信息的朝鲜语句子相似度度量方法(Kor-Sim),该方法可以较好地提升朝鲜语句子相似度计算的效果,此外本文提出的朝鲜语句子相似度计算方法Kor-Sim,还可以作为摘要质量的一个评价指标,可以从语义层面来评估生成摘要的质量;(3)在朝鲜语摘要句抽取的过程中,将上文提出的朝鲜语句子相似度度量方法用于TextRank算法,构建图模型,从而进行摘要句的抽取。
其他文献
随着互联网的日益发展,越来越多的用户通过微博等社交网络平台发表观点、参与热点事件的讨论。社交网络热点事件是指通过社交网络传播引起民众广泛关注并产生强烈反响的事件。在热点事件的传播过程中,通常会激起社会舆论、产生大规模的连锁反应,甚至危害社会的安全。用户作为事件传播中的主要参与者,是社交媒介的核心和主体,在热点事件的产生、演化和传播过程中发挥着重要的作用。因此如何准确有效地分析社交网络热点事件中的用
物理学科要培养学生的物理观念、科学思维、科学探究、科学态度与责任四大核心素养。物理概念是物理学科核心素养的基础,然而高中物理概念多、概念抽象、逻辑性强等特点,导致了物理概念和规律的难教和难学,尤其是物理抽象概念。因此探究促进高中物理抽象概念教学的研究非常重要。PHET仿真模拟(Physics Education Technology interactive simulation)主要是研究仿真模拟
大数据时代,推荐系统是帮助人们解决信息爆炸问题最有效的工具之一,但传统的推荐系统往往面临着数据稀疏和冷启动两大问题。近年来,社交平台的快速发展,使得各应用平台都产生了丰富的社交信息,因此有学者提出社会化推荐系统,在推荐系统中引入社交关系来提高推荐效果。虽然目前已经有许多研究工作取得了不错的成果,但多数研究都基于显式社交关系,而显式社交关系往往存在数据稀疏和噪音问题。为了弥补显式社交关系的不足,本文
与资源丰富语言相比,资源稀缺语言命名实体识别面临的最大困难是训练模型所需的语料尤其是人工标注语料的获取难度大、成本高,如何以低成本、高效率地识别资源稀缺语言的命名实体是目前资源稀缺语言命名实体识别的研究重点之一。本文研究如何从与资源稀缺语言文本相关的图片中获取与人名实体相关的信息,并将其应用于资源稀缺语言的人名识别任务中。本论文以藏文人名识别为例,具体工作如下:首先从与文本相关图片中抽取图片中的重
与基于插值或者重建的机器学习方法相比,深度学习在超分辨率(Super-Resolution,SR)任务上显示出其独特的优势。然而,人工设计一个性能优秀的超分辨率网络往往需要耗费大量的人力物力。除此之外,随着人工设计的神经网络越来越复杂,想要人工设计出一个表现不错的神经网络成为一个挑战。为了减少人工设计神经网络所花费的人力物力,神经网络架构搜索(Neural Architecture Search,
近年来,随着人工智能技术的不断革新,国家对各行各业越来越注重信息化的投入。自然语言处理作为文本信息化的一种重要方式,将其与司法文书相结合使得司法办公自动化必将成为大势所趋。本文主要研究的民事案件法律文本中命名实体识别任务,是司法领域信息化的基础工作之一,对后续的司法案件信息提取、案情辅助研判等一系列应用具有促进作用。本文在基于民事案件法律文书的命名实体识别研究中,完成了以下工作:1)构建司法领域命
场景文本检测是指从图像中定位出文本位置,该技术在图像检索、机器人导航、工业自动化和实时翻译等场景中有广泛使用,具有非常广阔的研究与应用价值。自然场景中文本的大小、排列方向和对比度等有很大差异,而且还受到噪声干扰、拍摄角度和光照变化等因素的影响,受这些因素影响,传统的文本检测方法对场景文本的检测效果较差,无法适用于复杂的场景文本检测。随着深度学习的兴起,基于深度学习的场景文本检测方法取得了重大突破,
微课是指教师在教学过程中,围绕某一知识点精心设计的以视频为载体的教学活动,具有简短灵活、便捷共享的特点。《普通高中物理课程标准(2017版)》中强调深化信息技术在物理教学中的应用,促进信息技术与物理学科的融合,因此物理微课也越来越受到教育工作者们的关注。如何让微课设计更加合理、在保证科学性的基础上充分发挥其辅助作用成为了研究重点。本文引入美国学者凯勒提出的ARCS动机模型,以此模型为基础将对应动机
民族高等教育是我国高等教育的重要组成部分,肩负着传承民族文化、培养少数民族人才、促进民族地区发展等多重任务。教师是振兴教育的希望,当前民族高校青年教师是教学和科研的主体力量,但民族高校青年教师在专业发展的过程中受到多种压力和影响。因此,了解民族高校青年教师专业发展现状,探究民族高校青年教师专业发展的影响因素是促进其专业发展的前提。本研究是以民族高校青年教师作为研究对象,采用问卷调查法和访谈法在青年