基于文本挖掘的学科领域相关问题研究

来源 :大科技·D版 | 被引量 : 0次 | 上传用户：lsui321

【摘要】

：

【作者】

：

马敏中

【出处】

：

大科技·D版

【发表日期】

：

2018年4期

【关键词】

：

演化趋势文本挖掘学科代码

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：在科学技术快速发展的过程中，传统的科学需要不断发展和分化，新的科学也随之产生，各个学科之间的联系也逐渐紧密，逐渐向着整体化、综合化的方向发展。本文主要研究了学科整体的组成，探究了各个学科的特点，研究了学科之间的较差部分以及整个学科的演化趋势，对科技工作者研究学科的发展历程以及各个学科之间的协调发展有着十分重要的作用。
　　关键词：演化趋势；文本挖掘；学科代码
　　中图分类号：G252 文献标识码：A 文章编号：1004-7344（2018）12-0022-02
　　从20世纪开始，科学技术得到了较为快速的发展，科学研究的范围逐渐宽广，科学研究的学科交叉融合、综合性和等现象变得日益明显，学科的发展情况有了很大变化。在科学技术得到快速发展时，传统的自然科学就会出现相应的发展和细分，各个学科之间的渗透情况变得日益明显，交叉学科、边缘学科开始大量出现，新的学科不断产生，科学技术也逐渐向整体化、综合化发展。
　　1 对学科领域进行划分的两种主要方式
　　从相关资料中发掘学科领域的组成结构、研究其发展前景，就需要了解这门学科的外延范围。外延范围一般就是指这门学科的范围所包含的建议书集合。因为单个建议书只从属于一定的学科领域外延，因此就需要对建议书语料进行相应的划分，进而就能得到学科的领域范围。
　　对学科领域进行划分时通常采用两种方式。①通过学科代码进行相应的划分。因为建议书是某个具体学科的代码，换句话说这个项目建议书是具体学科的学科代码，因此对应学科的科学代码则表示了这个学科的代码以及相应的外延范围。②对学科的建议书语料直接进行相应的划分。在划分的过程中直接忽略了该学科的学科代码，项目建议书本身表示了该学科所有的外延知识，也就是特定学科的项目建议书可直接反映该学科所有的外延范围[1]。
　　所以在对学科代码进行确定的过程中可直接从学科代码来对相关语料进行划分，并且还能直接忽略该学科的学科代码，从而对学科语料进行直接划分。为了进行明确的区别，本次研究将这两种划分方式所得到的学科领域命名为学科簇类以及学科代码。学科簇类和学科代码分别表示了该学科的领域，只是在划分的方式存在着明显差异。
　　2 對学科的文本进行挖掘
　　挖掘的内容主要是指抽取有用、新颖、散布在文本里面的只是，还要利用这些知识充分利用组织信息。1998年底，在国家研究项目中明确提出，文本挖掘的主要内容是对“自然语言理解、语言、图像与知识”中的内容进行挖掘。并且这种挖掘是对信息挖掘的主要过程，能将文本信息进行充分利用。文本挖掘的只要方式是对智能算法充分利用，就像对可能性推理、基于案例的推理、神经网络等，并根据相应的处理技术，对文本源（如网页、问题查询、客户电子邮件、电子表格、文档等）进行大量分析，标记文本中的文字信息，然后根据内容进行分类，从而得到有用的文本信息[2]。文本挖掘是一个较为复杂的过程，并且其中应用了多种技术，主要有概率理论、线性几何、统计数据分析，计算语言学、自然语言处理、机器学习、信息检索、信息抽取、数据挖掘技术甚至还有图论。
　　3 对文本分类的内容进行分析和处理
　　从上面得出的结论可发现，文本语料是在学科代码的基础上分类而来的，并且属于同一类型。但这种方式主要通过人工进行划分，经常会出现偏差，有些建议书或许会被分在没有相关性的学科代码中，文章列出了集中主要原因。
　　（1）学科代码列出的只是和代码有关系的领域，并没有明确这个领域研究的主要内容，研究人员只是按照代码所对应的领域进行申报。由于每个人的理解水平存在差异，这就会造成申请项目和学科代码出现差异的现象。
　　（2）随着科学技术的不断发展，学科领域中也出现了交叉融合的现象，而且有的研究范围也出现了模糊的现象；研究的内涵也发生了巨大变化，新的研究对象也在不断出现，有很多旧的研究方式不断被淘汰。面对这种状况，要是申请的项目涉及的领域较多时，科研工作者在申报项目的过程中就会出现迷惑，无法将申报的项目和科学代码进行对应，经常会出现是申报项目和代码不符的状况。
　　（3）在研究的过程中还会受到科研人员的主观因素影响，为了最大程度的提升申报成功率，故意把项目申报在关系不密切的学科代码下。
　　受到上面因素的影响，建议书语料里面或许存在着和项目代码不符的状况，在一般情况下，80%的建议书能申报到相符的科学代码之下，但仍然有20%的建议书或许存在着偏差。要是没有注意到这种偏差，直接通过代码对语料进行挖掘，进行相应的分析，那么得到的结果就会出现偏差。
　　为了防止偏差的出现，本次研究通过文本分类的方式建议书文本集合进行相应的处理。通过文本分类的方式，能按照文本内容来对文本类别进行自动确定。同时还能进行相应的分类，按照反复分类的方式将存在偏差的建议书分类到正确的代码之下。在此基础上，对相关领域进行分析。
　　4 对文本聚类进行相应的处理和评价
　　把学科代码当作学科领域中的内容，然后再进行相应的学科领域分析，这种方式较为科学和准确，但这种方式还有着一些问题：①建立相应的学科代码是为了充分利用而设立的，因此学科代码在分类的过程中不是完全根据学科分类而进行划分的。学科代码只能对学科领域的情况进行部分反映，并不能全部包括无法对所有领域的学科情况进行反应，而且在对有些学科进行划分的过程中可能过于细致，但在学科领域划分时过于细致或许是不必要的。②学科代码体系会在较短的时间之内保持不变，但科学技术在发展的过程中是不断变化的，研究的领域和内容不断出现，学科领域也会出现相应的变化，因此学科代码不能对科学研究的情况进行完全反映，而且也不能对学科领域随着时间的变化情况进行完全反映。从建议书语料里面对学科领域进行相应的划分，也是很好的研究方式。所以本次研究主要通过文本聚类的方式对建议书语料进行相应的划分，然后把聚类所获得的结论叫做学科簇类，从而对学科领域的情况进行反映。
　　5 文本挖掘的前景
　　数据挖掘技术是数据技术发展过程中的一个全新领域，文本挖掘的时间相对较短。传统的信息检索技术对信息量较大的数据处理效果不是很好，因此文本挖掘就显得更为重要了，由此可发现文本挖掘技术主要是从信息挖掘领域而逐渐发展起来的。
　　随着网计算机技术的不断发展，用户能获得娱乐资讯、商业信息到新闻报道、技术资料等多方面的信息和文档，从而形成了一个十分广阔的有着异构性、开放性特征的数据资料库，在这个数据库中有着很多的非文本数据。然后再和人工智能中的计算机语言学以及自然语言理解进行结合，在数据挖掘的过程中产生了两种新兴的领域：文本挖掘以及网络挖掘。
　　网络挖掘的过程中主要是分析和挖掘网络中的有关数据，主要有链接结构（运行过程中所产生的网络导航）、文本。一个网页中有着各个方面的数据类型，所以网络挖掘的内容就包括了图像挖掘、数据挖掘、文本挖掘等。文本挖掘是一种较为新颖的数据挖掘方式，主要的目的就是把文本信息转变为人类能应用的知识。
　　6 结束语
　　综上所述，当前有越来越多的研究人员把学科的特征、整体性质当作学科研究的重点，再次认识学科的特点，从而不断发掘学科的发展规律、特征、性质和整体结构的重要性，探究各个学科的特点，研究学科之间的较差部分以及整个学科的演化趋势，这对开展学科研究、各个学科之间协调发展有着十分重要的作用。
　　参考文献
　　[1]任刚.面向学科相关性分析的文本关联规则挖掘技术研究[D].长沙：中南大学，2011.
　　[2]陈黎.基于文本挖掘的学科领域相关问题研究[D].大连：大连理工大学，2008.
　　收稿日期：2018-3-26
　　作者简介：马敏中（1992-），男，广东广州人，本科，从事教育工作。

其他文献

房屋建筑工程施工质量优化管理

摘要：近年来房屋建筑工程施工项目不断增加，人们对房屋建筑工程施工质量也越来越关注。为了全面提高房屋建筑工程施工质量，需要强化房屋建筑工程压塌质量管理工作，全面提高房屋建筑工程施工质量。本文分析了房屋建筑工程施工质量管理的重要性，并进一步房屋建筑工程施工质量优化管理的措施进行了阐述。　　关键词：房屋建筑工程；施工质量管理；质量意识；质量管理体系；监管　　中图分类号：TU712.3 文献标识码：A

期刊

房屋建筑工程施工质量管理质量意识质量管理体系监管

档案馆库建设的环境条件研究

摘要：档案库房是存储档案的地方，也是档案工作人员经常出入的场所，库房内温湿度的高低、空气质量的好坏等环境因素，不仅影响档案的保存，同时也会对档案工作人员的身体健康产生极大的危害。在当今提倡“以人為本”的社会条件下，关注档案馆内的空气质量并改善档案库房的环境状况，不只是为了保证档案的长久保存，还可以有效保护档案工作人员的健康，更有益于我国档案事业健康发展。基于此，本文主要对档案馆库建设的环境条件进

期刊

档案馆库建设环境条件

土建施工的现场管理问题及对策分析

摘要：在土建工程的施工过程中最重要的一环就是对施工的现场进行管理，要想保障土建施工项目的质量以及施工时的安全性，就只有对土建施工现场各个方面展开有效的强化和改善措施，确保土建施工现场的各环节顺利实施。本文主要是分析土建施工现场管理存在的问题，并根据存在的问题提出相应的改进措施，从而来保障土建项目的质量，保证居民的生活安全。　　关键词：土建施工；现场管理问题；相关对策　　中图分类号：TU721.2

期刊

土建施工现场管理问题相关对策

房屋建筑工程施工进度管理策略分析

摘要：近年来人们生活水平的提升，对于住房质量要求也不断提高。在当前房屋建筑工程施工中，由于具体的工程项目施工周期较长，这也使施工进度管理的重要性更加凸显出来。因此在实际施工过程中，需要科学编制施工进度计划，并对其执行情况进行随时检查，针对施工阶段的各个要素进行有效管控，以此来确保房屋建筑工程施工进度的有序开展，为整个工程项目的施工质量和施工效率起到重要保障作用。　　关键词：房屋建筑工程；施工进度

期刊

房屋建筑工程施工进度计划执行动态化管理

事业单位思想政治工作面临的挑战和对策

摘要：思想政治工作是通过对人们的思想认识的影响来引导其行为。思想政治工作是我们党的一项重要工作，也是我们党的优势所在。思想政治工作在新民主主义革命、社会主义革命和社会主义建设中都发挥了重要作用。新时期，发挥好思想政治工作的积极作用，引导人们共同为实现伟大中国梦而努力奋斗是时代赋予思想政治工作者的光荣使命。事业单位涉及范围广泛，主体多元，在全面深化改革的今天，事业单位思想政治工作面临着新的挑战，也

期刊

思想政治工作事业单位对策

国有企业党建工作创新思考

摘要：社会的快速发展使得国有企业党建工作迎来了新的内外格局，所以创新党建工作已成为必然，倘若依旧沿用着过去的党建工作方式，那么就很难适应当前的党建工作形势。只有紧跟时代发展步伐，认真做好党建工作创新，国有企业的发展才会更加稳固。　　关键词：国有企业；党建工作；创新　　中图分类号：D267.1 文献标识码：A 文章编号：1004-7344（2018）12-0017-01　　1 国有企业党建工作的主

期刊

国有企业党建工作创新

电子档案网络安全问题的具体分析

摘要：在我国电子政务、办公自动化水平日益升高的今天，电子档案逐渐上升成一种常态。怎样才能够促使电子档案网络安全得到强有力的保障是目前档案管理部门面临的主要问题。为此，本文对目前我国电子档案网络安全问题进行具体分析的基础上，对电子档案安全影响因素进行具体的解析，提出相应的解决策略，望能够对今后电子档案网络安全管理工作的开展提供可参考性的建议。　　关键词：电子档案；網络安全；问题　　中图分类号：G2

期刊

电子档案网络安全问题

如何加强国有企业共青团管理工作

摘要：现阶段，随着社会的不断地发展与进步，人们生活水平逐渐的提高，国有企业的发展也越来越快。当前，是国有企业加快产业结构调整的关键时期，也是加速转变发展方式的决定阶段。为了实现更高的奋斗目标，将给青年员工提供广阔的舞台，同时也对青年员工提出了新的任务和更高的要求。为加强共青团组织建设，促进青年成长成才，充分发挥青年员工在企业发展中的生力军和突击队作用，并落实中共委办公司厅下发的“关于进一步加强新

期刊

加强国有企业共青团管理工作

浅谈金工实习在大学生教育中的重要性

摘要：工科大学生在校期间，金工实习在众多教学活动中处于重要地位。本文重点对金工实习在大学生教育中的重要性进行研究，基于创新教育、专业教育现代工程教育以及实践教育角度，来对金工实习在工科大学生素质教育上的作用进行阐述。　　中图分类号：G712.4 文献标识码：A 文章编号：1004-7344（2018）12-0020-01　　1 前言　　大学金工实习不但能够让学生充分掌握传统机械制造工艺与现代机

期刊

对当前中职商品经营专业人才培养的思考

摘要：职业教育职业学校是中国职业教育中最古老的职业之一。然而，随着商业模式的转变和经济的快速发展，社会已经改变了对商品管理行业的认识，提出了商品管理专业人才培养方向的问题。在诸多不利因素的影响下，入职职业学校职业学校的学生人数逐年下降。但近年来，中国的消费品零售总额，商品管理公司的数量以及从事商品销售的人数不断增长。供应严重短缺的情况正在恶化。结合近年来的教学经验和研究成果，笔者试图分析并提出一

期刊

中职学校商品经营专业人才培养

基于文本挖掘的学科领域相关问题研究

与本文相关的学术论文