基于机器学习的文本分类技术研究进展

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:ieven1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:近些年来,在信息的搜索以及对数据进行挖掘的研究等领域中,文本自动分类技术是这个领域最新、最关键的技术,并且在互联网纷繁复杂的信息处理方面以及机器学习的基础知识上,文本分类技术处理面临种种挑战,在算法、模型以及对产品的评测进行一系列的研究工作,该文总结了当前在机器学习基础上的关键问题,例如:Web页的分类方法,分类的多层性,算法的扩展特性,标注的瓶颈,文本分类技术的分散性以及线性。该文综合考虑了以上因素,对其进行科学合理的分析,并对基于机器学习的文本分类技术的研发与改进方法提出几点建议与措施,希望可以起到借鉴作用。
  关键词:机器学习;文本分类;结束研究;进展
  中图分类号:TP3        文献标识码:A
  文章编号:1009-3044(2021)30-0109-02
  开放科学(资源服务)标识码(OSID):
  在如今这个信息时代,互联网上每天都有海量的不同信息涌入人们脑海当中。针对这些基于信息内容的机器学习数据挖掘工作以及对这些海量信息检索能力都是目前的热门研究领域。这些领域之中,文本分类技术是其中最为重要的一种技术,文本分类方法就是针对固定的类别基础上通过文字来对其进行识别。文本分类技术处理主要是理解自然的语言并对其进行有效处理,对信息进行管理以及组织,并对文字的内容进行过滤,分离出无效信息。因此,对基于机器学习的文字分类技术的研究就尤为重要。对不同文本分类方法进行总结并试图探讨优化当前文本分类技术的方法。基于机器学习的文字分类技术由三个部分组合而成:分类的最终实现效果,对实现的效果进行可视化演示以及对不同文本的呈现与显示。
  1对于基于机器学习的文本分类技术基础研究工作
  近些年来,我们对于机器学习的文本分类研究转化为对BOW的研究,并且对于不同算法的记录与统计,以及不同文本的分类情况进行预测。该项研究已经随着时代进展逐漸成为目前文本分类研究的基本工作。由统计学以及基于语言学的文本分类研究的方法进行文字分类结果的预测也已经得到了广泛的科学进步,与以上研究领域相关的技术也广泛地在基于机器学习的文本分类技术中进行运用,本文将在文本分类研究领域专家学者的研究基础上进行进一步研究与探讨。
  1)对于文本进行表示
  VSM依旧是目前研究的主要的方法,采用何种语意的单元来作为项及的计算数量权重的基本问题有两个,一是绝大部分的文字识别对象都是采用词这个单元来作为基本计算单位,以文字项的不同频率来作为文字分类基本运算的不同权重。Debole曾表示将监督这一环节作为文字分类的权重这一概念,从而充分发挥项的能够显著来进行权重的平衡发展。
  而除了VSM以外,还有一种模型在相关人士之间也十分流行,那就是针对项的概率分布以及在二维的视图之上表示。文本分类研究专家Bigi等专家纷纷表示任意选取一个a文本以及b类的文本都可以被看成一个包括全部项的概率分布情况P(a,b),i=1…,这种分布方式叫作将分布进行特殊的概率表示,这种特殊的分布方法在一些情况中有着不错的表现。
  另外还存在着一种语义的单元之间的相互联系,一些文字分类技术渴望利用自然的语言处理技术来进行基于机器学习的文字分类工作。而这种技术往往被BOW所忘记,所以,在这种新型的文字分类方法中,词语的意思以及短语之中的项都被运用到不同的分类方法之中进行文字分类工作。但是这种新型的文字分类处理方法还不太成熟,这是因为这种新型的文字分类方法会导致分类器的运行速度遭到很大的影响,并且这些新型的文字分类表示方法相对于传统的文字分类表示技术并没有很显著的提升,而且没有绝对的优势的产生。截止到现在,不属于VSM的方法的合理程度以及在理论上以及实践上的实际拓展应用上还仍然需要进一步的验证才能放心使用,目前这种方式的文字分类方法还比较的单一,并没有在相关领域进行进一步的实际应用[1]。
  2)将空间的维度进行降低
  对于空间维度降低的相关研究主要集中在几个方面:将维度降低后的模型的实际算法与另一种算法进行比较,对特征数集的分类效果关系进行讨论以及维度降低的幅度大小进行控制。对于空间维度降低的模型与之相对应的实际算法相关研究,到目前为止还仍然处于较为传统的阶段。(1)对于项以及其分类种别的相关研究通常采用概率统计的方法进行。(2)对于分布上相似程度较高的文本分类方法,应该采用信息熵的视角来进行探讨,比如通过研究全局的信息来探讨不同分类方法的可行性。(3)对于隐藏的特别含义的分析路径研究,我们通常采用不相同的分析方法来设法得到线性的映射,这种映射可以通过对矩阵的不同角度进行分析,并对文本分类矩阵进行化简工作,尽可能地使其变得简洁。数据维度的降低也会对研究结果产生影响,所以在研究过程中必须对其加以注意。在实验过程中,特征数目的增加通常会使分类器的理想效果产生不好的影响。在前人的研究文献中,他们发现:对于空间在正常范围内的维度降低可能会导致分类器特征数量的增加而随之增加。产生的结果可能会迅速得到提升并且十分平稳。但是如果在实际测试过程中,特征的数量增长速度过于迅速,也可能会影响分类器的最终结果,并且会使分类器的性能有很大的降低。该项研究说明:将空间的维度进行降低在可以高效处理开销的同时也可能会降低效果器的实际使用效果。在结果上面来看的话,BNS以及IG等一系列测量工具进行统计以及组合时具有一定程度的优势,但是针对不同的分类器会更乐于选择不相同的空间降低维度的方法。通常情况下使用的特征值会对不同的算法选择效果上有着不同的反应[2]。
  3)评估的方法
  在理论研究之中,Li和Yang两位学者都觉得对于训练数据导致的一些不同误差以及这些误差的复杂程度会使分类器的不同能力都通通显露出来。对平时研究中经常使用的不同分类的方法进行系统化分析。这两位学者将分类器得到最理想效果的条件以及受其同质化的损失的函数进行分类,分为训练当中的损失以及所构建的模型的复杂程度这两个门类。   2基于机器学习的文本研究方法的主要挑战以及当前取得的有效进展
  就目前而言,对于机器学习相关领域的研究已经相对比较成熟,而基于机器学习的文本分类研究经过20年来的不断发展,解决了之前无法解决的一系列问题。在掌握数据量比较稀少的时候,分类器的标注量反而比较平均。但是目前还是有许多问题无法得到合理的解决。近些年来基于机器学习的文本分类研究领域主要面临的挑战有以下几点:(1)分类器的日常使用会被一些分类体系而影响,不同的类别适合不同的分类体系,要根据文本信息的体系而进行专门的识别工作。(2)在建立分类器之后得到的数据样本相对于尚未获得的数据数量过于稀少,导致产生的结果不能达到理想的效果。(3)在对于各个种类的分析时会遇到很多困难,比如遇到瓶颈问题是因为不同的文本数据更新的频次太高,导致无法对其进行科学合理的分析。以上三個问题需要我们对文本分类技术进行进一步的探索。
  1)针对数据集的偏斜问题的研究
  随着机器学习的文本分类方法的不断研究,我们发现收集的数据分布情况通常是偏斜,或者说是没有均匀分布。不同种类的差距有可能是数量级之间的差距。这是造成数据集分布不均衡的一大重要原因。
  有效解决这一问题的合理措施有以下几点:(1)进行重新取样,可以进行对大类的信息进行选择性忽视,或者是可以对小类信息的错误代价采取进一步提高的策略。(2)采用最新型的分类方法和战略,比如传统的单类SVM会把原点来当作整个研究的中心点,而如果将其分离,会使之前难以解决的问题转化为被不同的数据分布所影响的问题。(3)运用更加优秀的效果评估方法来进行评测,比如ROC曲线,这种曲线在收集的数据偏斜情况下仍然能够进行正常的评估。并且相对于其他曲线,在基于机器学习的文本分类方法中,ROC曲线还具有更易被机器进行抓取与识别的优势[3]。
  2)标注的瓶颈
  在学习算法的过程当中必须要借助大量的样本来进行标注,但是当前已经标注的样本不能提供足够的有效信息,而且在研究过程中可以获取的样本相对于未知的数据还是太少,这就制约了基于机器学习的文本分类技术的研究进程。因此,如何用少量的已经标注的样本来进行研究是目前需要解决的关于标注瓶颈的问题。首先,要将预期的期望进行最大化应用,尽可能利用少量的样本进行标注,这种方法可以深度优化文本分类效果,综合提高文本分类的效率。另外一种解决方案是采用直推的方式,将分类器优先对少量的样本进行推测,挑选重点的有特征的信息数据进行分类识别工作,从而起到优化改进分类器的效果,相对于传统的标注分类方式,采用直推方法来对基于机器学习的文本进行分类识别能够使识别效率大幅提升。以上两种方法在对于标注的瓶颈优化解决上能够起到了较大的帮助[4]。
  3)对Web进行合理分类
  通常所说的文本分类方法都是将文本自身进行分类,但是在互联网视角上,尤其是Web页面的分类,其中所含有的有用的信息将会对文本进行体现,从而可以侧面测试并解决分类器的决策问题。在当前研究中,要怎样合理的展现这些结构性的不同样本信息来满足统计仍然是目前机器学习的文本分类研究领域尚未定论的问题。
  4)多层分类
  一般来讲,我们所研究的问题都是相对独立的,学者们普遍认为这些问题之间并没有联系。但是在研究的种类比较多的时候,比如利用目前互联网时代下丰富的Web信息来进行综合管理研究上,我们必须使用多层次的信息分类方法。多层分类是指对所研究的样本数据进行多个层次的研究探讨,在面对难以解决的必须通过大量数据才能解决的问题时通常有较好的表现。所以在基于机器学习的文本分类方法中,采用多层分类这种方式处理文本信息是一种较为理想的分类方式。
  3结束语
  本文对机器学习的文本分类技术基础进行研究并讨论其优化方法,对基于机器学习的文本研究方法面临的主要挑战进行总结,并对当前取得的有效进展进行总结。重点讨论了最近几年面对的文本分类难题以及对文本分类相关学者的最新研究内容进行总结。基于机器学习的文本分类技术在不同领域都有着广泛的应用,但伴随着时代的进步,人们的不同特殊需求也开始显露,人们不再局限于以前传统思想的束缚,越来越多的新型需求开始显现出来,这些新型需求也对当前的文字分类技术提出了挑战。文本分类技术还有许多问题仍然值得进一步研究,希望本文探讨出的几点结论能够起到借鉴作用。
  参考文献:
  [1] 周晶,沈隽城.基于大数据的机器学习技术对文本分类的研究[J].信息通信,2020,33(6):5-6.
  [2] 王爽.基于机器学习的自动文本分类方法研究[D].成都:电子科技大学,2020.
  [3] 白亚莉.基于机器学习的新闻文本分类技术[C]//2019中国信息通信大会(CICC 2019)论文集.成都,2019:397-403.
  [4] 韦灵,倪志平.基于自然语言处理和机器学习的文本分类及其运用[J].科技视界,2019(27):88-89.
  【通联编辑:代影】
其他文献
摘要:计算机网络安全技术的不断发展,为社会大众生活和工作带来诸多便利,使大众足不出户便可接收所需资讯信息,当前我国已经初步实现了共享化、网络化与信息化发展。大数据时代的来临,使得计算机网络安全及防范的研究更具理论意义和实践意义。对此,本文首先对大数据与计算机网络安全进行论述,以此为基础分析了大数据时代计算机网络安全问题,最后提出了大数据时代下计算机网络安全防范策略。  关键词:大数据;计算机网络安
摘要:针对目前关键基因预测不准确和预测算法缺乏等问题,本文提出一种基于控制理论的关键基因预测算法。首先,从TCGA数据库收集结直肠癌数据,使用计算机工具预处理数据,并利用结直肠癌数据和LncMAP数据库数据构建lncRNA-TF-gene调控网络。然后,设计一种新的筛选方法,基于控制理论中的最小驱动节点集思想和可控性动态分类理论,筛选得到关键节点基因集;将突变得分和网络拓扑分析方法得分融合分析,得
摘要:Bellman-ford和Spfa是解决最短路问题的基本算法,是信息学奥赛教学的基本内容。由于算法抽象性和逻辑性强,教学过程中学生对其基本原理、实现过程理解困难,导致无法灵活运用解决问题。该文旨在用具体实例结合图表对算法执行过程进行详细解析,深刻剖析了算法的优化原理,有效解决了学生理解和应用困难的问题。  关键词:Bellman-ford;Spfa;算法解析  中图分类号:TP312 文
摘要:随着互联网技术的迅猛发展,网络安全成为国家安全的战略思考。以计算机网络为载体的开放大学时刻关注并高度重视网络安全成为其内涵发展、高质量发展的必然选择。基于此,开放大学必须正视网络安全的客观现实,积极探寻行之有效的网络安全建设之路。  关键词:开放大学;网络;安全;现状;路径  中图分类号:TP393 文献标识码:A  文章编号:1009-3044(2021)30-0070-02  开放
摘要:智慧校园是高校信息化发展阶段中的一个智慧产物,学校依托光网建设、大数据、人工智能等前沿信息技术,同时不断改善软硬件设施,从而营造一个智能化的教育环境。高校一站式服务平台的建设可将学校科研、教学、行政管理和校园生活等进行智能化融合。该文对智慧校园背景下高校一站式服务平台的建设需求、建设思路、建设价值进行了分析研究。  关键词:智慧校园;一站式服务;个性化  中图分类号:TP311 文献标
摘要:结构化查询语言(SQL)在软件程序开发中处于重要的地位和作用。近年来,信息系统项目的规格越来越大,复杂性越来越高,由数据查询和数据管理上的失误给我们造成的教训也越来越深刻,使我们不得不重视结构化查询语言(SQL)的使用管理问题。特别是在程序开发的生命周期中,提供结构化、有序化的数据使用方法是开发项目管理很重要的基础工作。结构化查询语言(SQL)外置管理是通过技术及行政手段对软件产品中SQL或
摘要:设计采用React框架和Node.js进行前后端分离开发,用Ant Design组件库进行组件化开发,数据库技术使用MySQL,设计开发基于React的在线教学系统,实现课堂讲堂、我的任务、讨论互动等八个主要功能模块,使得教学行为不再受空间物理特性的约束,实现教学手段科学化,发挥学生在学习过程中的主体性以及调动学生的学习积极性和主动性。  关键词:在线教学平台;React;主体性  中图分类
针对盲人的出行需求,设计并开发了一款盲道导航软件,引导盲人在盲道上行走,帮助盲人感知道路,保障盲人安全出行。该文首先介绍了该软件的功能设计和数据组织方式。其次,就系统开发使用的关键技术,即Socket通信技术与基于Dijkstra算法的最短路径规划进行介绍。最后,使用该软件在徐州选定的街区进行实地测试,探究软件的可行性。
摘要:手机端Web App是在智能手机上显示的联网软件,手机端Web App方便人们使用智能移动设备获取更多的信息和资讯,突破时间与空间的限制,给生活带来更大的便利。在视觉传达设计视角下,针对手机端Web App中字体、版面、颜色、动画等元素进行布局,向受众传达版面内涵,提升受众浏览兴趣。将PC端Web运用到手机端Web App中研究,使移动终端上正常浏览PC端的网页资源,实现PC端Web应用到手
随着Android手机操作系统的飞速发展,Android系统及应用程序被越来越多的人认识并使用。在校园场景下,上学放学时段时,人流瞬时激增,造成道路不通畅,严重影响正常的日常生活。教学楼自习区域人员分散,寻找合适的课室需要花费不少的时间。为了解决上述问题,改善空间上的人流分布,方便生活;开发了这个系统。系统调用百度地图SDK实现校园内的道路显示。通过应用与数据库的互联互通实现了人流量记录以及查询和