【摘 要】
:
自然语言处理(NLP)在计算机和人工智能领域一直发挥着重要的作用。在大数据普遍运用的背景下,文本相似计算研究是NLP中一项最常见且关键的任务。文本相似度计算广泛应用于多种场景,例如在信息检索中,搜索和检索词语相似的文本信息;在自动问答中,计算匹配程度并将匹配程度最高的结果作为答案;在机器翻译中,分析语句语义并计算出相似度,完成中英文的翻译等等。如今,更精确的文本相似度比对与查找是一项迫切的需求,譬
论文部分内容阅读
自然语言处理(NLP)在计算机和人工智能领域一直发挥着重要的作用。在大数据普遍运用的背景下,文本相似计算研究是NLP中一项最常见且关键的任务。文本相似度计算广泛应用于多种场景,例如在信息检索中,搜索和检索词语相似的文本信息;在自动问答中,计算匹配程度并将匹配程度最高的结果作为答案;在机器翻译中,分析语句语义并计算出相似度,完成中英文的翻译等等。如今,更精确的文本相似度比对与查找是一项迫切的需求,譬如针对各类论文的抄袭、资料的链式抄写、内容恶意套改和未授权使用等等。因此,如何将新兴技术与文本信息检索有效地结合起来,提高文本相似度对比的准确性显得愈发重要。当前文本信息存储多数采用传统的关系型数据库,存在难以支撑海量数据的存储和查询,高负载情况下数据库的读写性能差,搜索匹配效率低下,分布式数据库扩展困难等问题,无法满足人们在海量数据中匹配出相似文档的要求。而新兴的搜索和数据分析引擎Elastic Search具有高性能、高可用、高扩展等优点,可以在海量数据全文检索时提高搜索效率。基于此现状,本文结合分布式Elastic Search架构、微服务框架、文本相似度算法等功能,搭建了一个基于微服务架构的Elastic Search相似内容比对算法应用框架,以提高文本相似比对的精确度和信息检索速率,同时实现并行处理的功能。本文的主要工作如下:首先,对新兴的搜索和数据分析引擎Elastic Search展开了探索与研究。为保证用户在检索时快速定位数据位置,提高检索效率,利用路由算法实现Elastic Search集群中文本数据的快速存储与搜索。其次,对字符串匹配算法、基于语义的文本相似度算法和基于词频的文本相似度算法进行了研究,通过对比分析三种算法的优缺点,将其进行算法融合,提出了一种改进的文本相似度算法。该算法考虑了文本在字形和语义上的相似性,利用Elastic Search的评分机制,实现量化文本之间的相似度,并得到相应的相似度分值。随后,依托Elastic Search文本存储,结合负载均衡+服务路由与网关+限流与熔断机制+相似度比较服务单元,构建并实现了文本内容相似比对的微服务应用平台。对系统进行了整体规划、分析和设计,逐一实现了各服务的实际功能及服务间的通信与协作。最后,为验证本论文算法的有效性,基于微服务应用平台对多样文本进行了相似度功能与性能测试。测试结果表明,文本相似度匹配精确度在一定程度上有所提高。同时,该平台可以支撑高并发的对比需求,论文的部分成果已在实际项目中得到应用。
其他文献
信息技术的飞速发展对于电源系统提出了愈来愈高的要求,微型直接甲醇燃料电池(Micro direct methanol fuel cell,μDMFC)因其高能量密度、高转换效率、无污染等特点,被认为是便携式电子设备电源的理想解决方案之一。然而μDMFC面临的传质管理、催化剂中毒等问题使其无法直接在高浓度燃料下运行。此前,研究人员所提出的解决思路绝大多数从宏观尺度出发,大多会在电池内引入新的结构或器
本文提出了一种建议评论分类方法和一种建议关键短语提取方法,以实现评论文本的建议挖掘,帮助用户更便捷地作出决策,也帮助商家更精准地改进相关服务.对于评论的分类,本文提出一种基于PU(positive and unlabeled)学习的方法.与常规PU学习不同,正例样本通过简单规则获得;在PU学习一阶段中,以投票的方式综合三种方法去划分可靠负例;PU学习二阶段中,将代价敏感融入支持向量机中进行训练.在
离群点检测是数据挖掘中重要的研究方向之一,因其应用前景的广阔受到了学者们的关注。基于经典粗糙集理论的离群点检测方法一般只适用于符号型属性数据,不能直接应用于数值型属性数据。由于数值型数据的处理要预先对其进行离散化,数据本身所蕴含的信息在离散化过程中容易发生改变,甚至会因此而丢掉重要的信息。为了提高处理数值型和混合型属性数据集的效率,粗糙集理论中的等价关系发展出了邻域关系。实际上,用邻域粗糙集理论来
教育部办公厅关于印发的《2017年教育信息化工作要点》的通知中指出深入推进信息技术与教育教学深度融合。(1)在信息化、数字化教学背景下,创新的教学模式不断涌现,智慧云课堂就是其中之一。四川省某中学校也积极开展智慧课云堂在高中物理教学中的应用研究。本文采用的是教育叙事研究的方法,叙写我在自己所任教的学校四川省某中学参与智慧云课堂教学实践研究的经历过程。在研究过程中,我利用文献分析法对国内外相关文献进
文本匹配作为文字处理领域的一项热门技术,在查重检测、智能问答等领域有广泛的应用实践。目前,诸多学术不端行为,如论文剽窃、数据造假和内容恶意篡改,在高校和其它学术界越来越严重,许多学生通过同义词替换法、打乱语序排列法、语义重述法等主要方式来降低论文查重率。为解决上述问题,经过对已有文本比对算法的大量调研和分析,结合先进搜索引擎已具备文本精确匹配等强大功能的支撑,本文选取开源企业级搜索和数据分析引擎E
本文主要基于K-means算法和TextRank算法研究自动文摘技术来提取单文档中文新闻文本核心句.针对TextRank算法没有考虑到一篇新闻文本可能存在多个主题的情况,本文通过引入K-means算法,提出了D-kmeans算法,将相似的句子归为同一类.针对TextRank算法考虑因素不全面,本文结合D-kmeans算法,并对其进行修改,得到一种用于文摘提取的算法,称为WK-TextRank算法.
信息时代的发展,促进了网络评价的衍生。通过对网络评价不同方面的剖析,可以使商家获得相关销售产品的使用反馈等信息,促进商品的改进与升级。同时,用户在购买商品时,参考网络评价,也能针对性地挑选自己需要的商品。这就推动了众多研究者对于方面级短文本情感分类的研究,方面级情感分类成为了自然语言处理研究领域中一个热点问题。而评价文本存在口语化,错别字多等问题,给文本分类的语义分析带来了挑战。随着深度学习的发展
随着大数据时代的到来,教学资源越来越丰富,课堂教学方式也更加多元化,动画教学已成为高中生物课堂上广泛运用的一种教学方式。通过对动画资源以及中学课堂动画教学应用现状调查,发现目前的动画资源存在动画资源少、内容量较多、英文解说听不懂、英文字幕看不懂、交互性不强等问题;在课堂教学方面则存在学生只关注动画图像而忽略知识的现象、动画资源与课堂教学需求不匹配的现象等。为解决动画资源和课堂动画教学存在的问题,笔
伴随信息技术的飞速发展,如今人们的生活已然进入到了“微时代”,在这样的时代背景之下,人们已经逐渐习惯使用电脑、手机等通讯工具在网络直播平台上进行在线学习,或者通过观看网络教学视频进行获取信息从而开展学习。微课作为一种新颖的学习资源越来越受到学生们的追捧欢迎。微课因其“短”、“小”、“精”、“悍”的特点,可以满足大部分学生的学习需求。如今在教学中使用的微课数量逐步上升,但大部分是适用于学生课前预习以
在徐则臣长篇小说《北上》中,意大利人小波罗于1901年沿京杭大运河北上的寻弟之旅,不仅在故事层面串联起了大运河的前世今生和小说人物的今与昔,也在象征层面呈现了大运河所承载的古今、中西之间变与不变、冲突与融合的思考及意义,令这条贯通中国南北的古老运河,成为连接古今、中西的时间/生命/历史与文明/文化之河。帝都/首都与大运河终点/起点的双重身份,也使得北京形象在小说中同大运河的历史文化价值与象征意义形