【摘 要】
:
随着互联网技术的高速发展,评论、新闻、舆论等文本数据也呈爆炸式增长。如何在巨大的文本数据源中准确、快速的挖掘到有价值的信息成为人们迫切的需要,这也是工业界和学术界一直关注的热点问题。机器学习和深度学习的发展为文本挖掘提供了有力的技术支持,文本分类相关算法也大量应用于各行各业。但是由于算法学习的门槛较高,非计算机相关从业人员难以直接使用相关算法工具开展自身业务的分析。本论文设计并实现的机器学习平台可
论文部分内容阅读
随着互联网技术的高速发展,评论、新闻、舆论等文本数据也呈爆炸式增长。如何在巨大的文本数据源中准确、快速的挖掘到有价值的信息成为人们迫切的需要,这也是工业界和学术界一直关注的热点问题。机器学习和深度学习的发展为文本挖掘提供了有力的技术支持,文本分类相关算法也大量应用于各行各业。但是由于算法学习的门槛较高,非计算机相关从业人员难以直接使用相关算法工具开展自身业务的分析。本论文设计并实现的机器学习平台可以将复杂的算法调用转变为简单的图形化界面操作,用户只需上传数据集,即可定制自身领域的算法模型,进而帮助用户提升工作效率。本文研究了当下分类效果极佳的文本分类模型XLN et,并且对XLNet模型进行改进,与LSTM、GRU、CNN等深度神经网络进行融合。利用中英文数据集分别训练得到分类效果最佳的中文分类模型XLNet与英文分类模型XLNet-LSTM。以上述模型作为平台的中英文基础分类模型,本文基于B/S架构提出了一种面向文本分类的机器学习平台的设计与实现方案,结合相关图表对机器学习平台的需求分析、概要设计以及详细设计与实现进行了充分的说明。平台以Python作为主要开发语言,Flask轻量级框架作为平台的后台框架,Tensorflow作为文本分类模型的开发框架,结合前端相关技术设计并实现了模型定制、文本分类、文本检索、平台管理、个人中心等功能模块。本文设计并实现的一种面向文本分类的机器学习平台,为需要借助算法模型提升自身业务的非计算机从业人员降低了技术门槛,为提高企业、政府等机构的智能化水平提供了技术支持,对同类平台的开发及应用具有参考价值。
其他文献
青蒿(Artemisia annua)是一种古老的退烧草药。从青蒿中提取的青蒿素是治疗疟疾的有效药物。双氢青蒿素(DHA)是在青蒿素原有的结构中引进了羟基,从而提高了其抗疟活性。研究发现DHA还具有抗炎、抗肿瘤作用,而且对红斑狼疮具有一定的治疗作用,但作用机理一直不是很清楚。本实验以DHA为实验药物,对其在感染弓形虫及伯氏疟原虫小鼠的免疫调节作用进行了研究。将小鼠攻虫后,分别在不同时间段进行DHA
当前,企业之间的竞争逐渐转变为企业在产品竞争力方面的竞争,一时的产品领先,虽然吸引了部分消费者,但是这并不能够让企业在激烈的市场竞争中自始至终占据优势地位。因此,企业需要积极主动地开发新产品、不断进行产品创新,夯实基础,又好又快地促进企业产品进行更新换代,使企业朝着更有利的方向发展。本文是以青岛三协锻造有限公司为案例研究对象,首先,根据收集到的国内外行业数据分析了企业所处的钢铁行业环境,分析、概括
随着半导体和集成电路技术的不断发展和广泛应用,图像视觉传感器从上个世纪的CCD图像传感器和CMOS图像传感器发展为当今的DVS图像传感器。DVS图像传感器在实时图像处理时能够实现高动态范围与高的灵敏度。逐次逼近型模数转换器是模数转换器中重要分类之一,由于其功耗低、响应速度快、设计简单,因此被普遍的应用在模拟集成电路与数模混合集成电路的信息处理系统中。本文研究设计基于动态视觉传感器的关键模数转换器、
从微积分理论形成以来,人们一直用微分方程来解释各种自然现象.微分方程来自人类的社会实践,因此又是解决实际问题的一个最强有力的数学方法.具有奇性的微分方程来源于物理、
The report of the 19th Congress of the Communist Party pointed out that it is necessary to accelerate the construction of manufacturing power and promote the deep integration of the Internet,big data,
随着信息技术推动社会不断进步,企业管理的方式也逐步升级。化学试剂是人类当今生产与生活不可或缺的一部分,然而他们具有易燃、有毒、易爆、有害等特点,所以一旦发生事故,将造成巨大损失。为了加强对危险试剂的管理,从危险试剂的采购、仓储、使用到危险废物上报等,需要进行全流程把控管理。传统管理都是通过人工手抄记录,无法进行高效完成任务,甚至由于数据繁杂,导致工作人员记录过程中出错的频率提高,而且还可能导致危险
随着世界各国高新科学技术水平的快速发展和进步,我国对各种高新科学仪器的需求量也在迅猛地增长中,不断推动中国的高新科学仪器市场快速的发展和壮大,引来国内外该行业的企业展开对中国科学仅器市场的争夺战。由于该行业的产品在质量方面大同小异,在客户需求方面存在着多样化、复杂化的特征,所以,企业想要在如此激烈的市场竞争中抢占一定的市场优势,就需要从该行业产品的售后服务这一方面入手。该行业售后服务的质量由于受到
我国车险市场竞争激烈,大部分财产险公司都在持续亏损经营,而车险保费规模远高于其他险种,中小财产险公司要扩大市场规模就必须发展车险市场。中小保险公司必须在提升理赔服
数字时代的到来使得艺术与科技的结合达到了一个新的高度。数字技术不仅参与了艺术创作,成为作品有机的整体部分,同时还积极地融入了艺术的传播与批评过程。艺术与艺术理论的面貌都为之一新。尤其是随着虚拟现实(VR)、增强现实(AR)、计算机算法、人工智能(AI)等技术的兴起,数字艺术的类型也得到了极大的丰富:扩展了已有艺术类型的创作媒介、内容和手段,同时也促使了包括VR艺术、生成艺术及人工智能等新兴艺术类型
随着移动互联网的快速发展,在线社交已经成为人们生活中极为重要的一部分。但是,传统社交网络逐渐暴露的隐私泄露问题也让人们越来越担心。另外社交网络等互联网服务带来的移动通信流量的蓬勃增长,也给当前的通信设施带来了极大的压力。区块链技术的出现和近用户端设备缓存思想的提出为解决这些问题提供了新的方向。因此,本文将结合区块链技术、最优化理论等对社交网络及内容缓存两个热点方向进行了研究。主要包含的工作有:(1