论文部分内容阅读
摘 要:在科学技术快速发展的过程中,传统的科学需要不断发展和分化,新的科学也随之产生,各个学科之间的联系也逐渐紧密,逐渐向着整体化、综合化的方向发展。本文主要研究了学科整体的组成,探究了各个学科的特点,研究了学科之间的较差部分以及整个学科的演化趋势,对科技工作者研究学科的发展历程以及各个学科之间的协调发展有着十分重要的作用。
关键词:演化趋势;文本挖掘;学科代码
中图分类号:G252 文献标识码:A 文章编号:1004-7344(2018)12-0022-02
从20世纪开始,科学技术得到了较为快速的发展,科学研究的范围逐渐宽广,科学研究的学科交叉融合、综合性和等现象变得日益明显,学科的发展情况有了很大变化。在科学技术得到快速发展时,传统的自然科学就会出现相应的发展和细分,各个学科之间的渗透情况变得日益明显,交叉学科、边缘学科开始大量出现,新的学科不断产生,科学技术也逐渐向整体化、综合化发展。
1 对学科领域进行划分的两种主要方式
从相关资料中发掘学科领域的组成结构、研究其发展前景,就需要了解这门学科的外延范围。外延范围一般就是指这门学科的范围所包含的建议书集合。因为单个建议书只从属于一定的学科领域外延,因此就需要对建议书语料进行相应的划分,进而就能得到学科的领域范围。
对学科领域进行划分时通常采用两种方式。①通过学科代码进行相应的划分。因为建议书是某个具体学科的代码,换句话说这个项目建议书是具体学科的学科代码,因此对应学科的科学代码则表示了这个学科的代码以及相应的外延范围。②对学科的建议书语料直接进行相应的划分。在划分的过程中直接忽略了该学科的学科代码,项目建议书本身表示了该学科所有的外延知识,也就是特定学科的项目建议书可直接反映该学科所有的外延范围[1]。
所以在对学科代码进行确定的过程中可直接从学科代码来对相关语料进行划分,并且还能直接忽略该学科的学科代码,从而对学科语料进行直接划分。为了进行明确的区别,本次研究将这两种划分方式所得到的学科领域命名为学科簇类以及学科代码。学科簇类和学科代码分别表示了该学科的领域,只是在划分的方式存在着明显差异。
2 對学科的文本进行挖掘
挖掘的内容主要是指抽取有用、新颖、散布在文本里面的只是,还要利用这些知识充分利用组织信息。1998年底,在国家研究项目中明确提出,文本挖掘的主要内容是对“自然语言理解、语言、图像与知识”中的内容进行挖掘。并且这种挖掘是对信息挖掘的主要过程,能将文本信息进行充分利用。文本挖掘的只要方式是对智能算法充分利用,就像对可能性推理、基于案例的推理、神经网络等,并根据相应的处理技术,对文本源(如网页、问题查询、客户电子邮件、电子表格、文档等)进行大量分析,标记文本中的文字信息,然后根据内容进行分类,从而得到有用的文本信息[2]。文本挖掘是一个较为复杂的过程,并且其中应用了多种技术,主要有概率理论、线性几何、统计数据分析,计算语言学、自然语言处理、机器学习、信息检索、信息抽取、数据挖掘技术甚至还有图论。
3 对文本分类的内容进行分析和处理
从上面得出的结论可发现,文本语料是在学科代码的基础上分类而来的,并且属于同一类型。但这种方式主要通过人工进行划分,经常会出现偏差,有些建议书或许会被分在没有相关性的学科代码中,文章列出了集中主要原因。
(1)学科代码列出的只是和代码有关系的领域,并没有明确这个领域研究的主要内容,研究人员只是按照代码所对应的领域进行申报。由于每个人的理解水平存在差异,这就会造成申请项目和学科代码出现差异的现象。
(2)随着科学技术的不断发展,学科领域中也出现了交叉融合的现象,而且有的研究范围也出现了模糊的现象;研究的内涵也发生了巨大变化,新的研究对象也在不断出现,有很多旧的研究方式不断被淘汰。面对这种状况,要是申请的项目涉及的领域较多时,科研工作者在申报项目的过程中就会出现迷惑,无法将申报的项目和科学代码进行对应,经常会出现是申报项目和代码不符的状况。
(3)在研究的过程中还会受到科研人员的主观因素影响,为了最大程度的提升申报成功率,故意把项目申报在关系不密切的学科代码下。
受到上面因素的影响,建议书语料里面或许存在着和项目代码不符的状况,在一般情况下,80%的建议书能申报到相符的科学代码之下,但仍然有20%的建议书或许存在着偏差。要是没有注意到这种偏差,直接通过代码对语料进行挖掘,进行相应的分析,那么得到的结果就会出现偏差。
为了防止偏差的出现,本次研究通过文本分类的方式建议书文本集合进行相应的处理。通过文本分类的方式,能按照文本内容来对文本类别进行自动确定。同时还能进行相应的分类,按照反复分类的方式将存在偏差的建议书分类到正确的代码之下。在此基础上,对相关领域进行分析。
4 对文本聚类进行相应的处理和评价
把学科代码当作学科领域中的内容,然后再进行相应的学科领域分析,这种方式较为科学和准确,但这种方式还有着一些问题:①建立相应的学科代码是为了充分利用而设立的,因此学科代码在分类的过程中不是完全根据学科分类而进行划分的。学科代码只能对学科领域的情况进行部分反映,并不能全部包括无法对所有领域的学科情况进行反应,而且在对有些学科进行划分的过程中可能过于细致,但在学科领域划分时过于细致或许是不必要的。②学科代码体系会在较短的时间之内保持不变,但科学技术在发展的过程中是不断变化的,研究的领域和内容不断出现,学科领域也会出现相应的变化,因此学科代码不能对科学研究的情况进行完全反映,而且也不能对学科领域随着时间的变化情况进行完全反映。从建议书语料里面对学科领域进行相应的划分,也是很好的研究方式。所以本次研究主要通过文本聚类的方式对建议书语料进行相应的划分,然后把聚类所获得的结论叫做学科簇类,从而对学科领域的情况进行反映。
5 文本挖掘的前景
数据挖掘技术是数据技术发展过程中的一个全新领域,文本挖掘的时间相对较短。传统的信息检索技术对信息量较大的数据处理效果不是很好,因此文本挖掘就显得更为重要了,由此可发现文本挖掘技术主要是从信息挖掘领域而逐渐发展起来的。
随着网计算机技术的不断发展,用户能获得娱乐资讯、商业信息到新闻报道、技术资料等多方面的信息和文档,从而形成了一个十分广阔的有着异构性、开放性特征的数据资料库,在这个数据库中有着很多的非文本数据。然后再和人工智能中的计算机语言学以及自然语言理解进行结合,在数据挖掘的过程中产生了两种新兴的领域:文本挖掘以及网络挖掘。
网络挖掘的过程中主要是分析和挖掘网络中的有关数据,主要有链接结构(运行过程中所产生的网络导航)、文本。一个网页中有着各个方面的数据类型,所以网络挖掘的内容就包括了图像挖掘、数据挖掘、文本挖掘等。文本挖掘是一种较为新颖的数据挖掘方式,主要的目的就是把文本信息转变为人类能应用的知识。
6 结束语
综上所述,当前有越来越多的研究人员把学科的特征、整体性质当作学科研究的重点,再次认识学科的特点,从而不断发掘学科的发展规律、特征、性质和整体结构的重要性,探究各个学科的特点,研究学科之间的较差部分以及整个学科的演化趋势,这对开展学科研究、各个学科之间协调发展有着十分重要的作用。
参考文献
[1]任 刚.面向学科相关性分析的文本关联规则挖掘技术研究[D].长沙:中南大学,2011.
[2]陈 黎.基于文本挖掘的学科领域相关问题研究[D].大连:大连理工大学,2008.
收稿日期:2018-3-26
作者简介:马敏中(1992-),男,广东广州人,本科,从事教育工作。
关键词:演化趋势;文本挖掘;学科代码
中图分类号:G252 文献标识码:A 文章编号:1004-7344(2018)12-0022-02
从20世纪开始,科学技术得到了较为快速的发展,科学研究的范围逐渐宽广,科学研究的学科交叉融合、综合性和等现象变得日益明显,学科的发展情况有了很大变化。在科学技术得到快速发展时,传统的自然科学就会出现相应的发展和细分,各个学科之间的渗透情况变得日益明显,交叉学科、边缘学科开始大量出现,新的学科不断产生,科学技术也逐渐向整体化、综合化发展。
1 对学科领域进行划分的两种主要方式
从相关资料中发掘学科领域的组成结构、研究其发展前景,就需要了解这门学科的外延范围。外延范围一般就是指这门学科的范围所包含的建议书集合。因为单个建议书只从属于一定的学科领域外延,因此就需要对建议书语料进行相应的划分,进而就能得到学科的领域范围。
对学科领域进行划分时通常采用两种方式。①通过学科代码进行相应的划分。因为建议书是某个具体学科的代码,换句话说这个项目建议书是具体学科的学科代码,因此对应学科的科学代码则表示了这个学科的代码以及相应的外延范围。②对学科的建议书语料直接进行相应的划分。在划分的过程中直接忽略了该学科的学科代码,项目建议书本身表示了该学科所有的外延知识,也就是特定学科的项目建议书可直接反映该学科所有的外延范围[1]。
所以在对学科代码进行确定的过程中可直接从学科代码来对相关语料进行划分,并且还能直接忽略该学科的学科代码,从而对学科语料进行直接划分。为了进行明确的区别,本次研究将这两种划分方式所得到的学科领域命名为学科簇类以及学科代码。学科簇类和学科代码分别表示了该学科的领域,只是在划分的方式存在着明显差异。
2 對学科的文本进行挖掘
挖掘的内容主要是指抽取有用、新颖、散布在文本里面的只是,还要利用这些知识充分利用组织信息。1998年底,在国家研究项目中明确提出,文本挖掘的主要内容是对“自然语言理解、语言、图像与知识”中的内容进行挖掘。并且这种挖掘是对信息挖掘的主要过程,能将文本信息进行充分利用。文本挖掘的只要方式是对智能算法充分利用,就像对可能性推理、基于案例的推理、神经网络等,并根据相应的处理技术,对文本源(如网页、问题查询、客户电子邮件、电子表格、文档等)进行大量分析,标记文本中的文字信息,然后根据内容进行分类,从而得到有用的文本信息[2]。文本挖掘是一个较为复杂的过程,并且其中应用了多种技术,主要有概率理论、线性几何、统计数据分析,计算语言学、自然语言处理、机器学习、信息检索、信息抽取、数据挖掘技术甚至还有图论。
3 对文本分类的内容进行分析和处理
从上面得出的结论可发现,文本语料是在学科代码的基础上分类而来的,并且属于同一类型。但这种方式主要通过人工进行划分,经常会出现偏差,有些建议书或许会被分在没有相关性的学科代码中,文章列出了集中主要原因。
(1)学科代码列出的只是和代码有关系的领域,并没有明确这个领域研究的主要内容,研究人员只是按照代码所对应的领域进行申报。由于每个人的理解水平存在差异,这就会造成申请项目和学科代码出现差异的现象。
(2)随着科学技术的不断发展,学科领域中也出现了交叉融合的现象,而且有的研究范围也出现了模糊的现象;研究的内涵也发生了巨大变化,新的研究对象也在不断出现,有很多旧的研究方式不断被淘汰。面对这种状况,要是申请的项目涉及的领域较多时,科研工作者在申报项目的过程中就会出现迷惑,无法将申报的项目和科学代码进行对应,经常会出现是申报项目和代码不符的状况。
(3)在研究的过程中还会受到科研人员的主观因素影响,为了最大程度的提升申报成功率,故意把项目申报在关系不密切的学科代码下。
受到上面因素的影响,建议书语料里面或许存在着和项目代码不符的状况,在一般情况下,80%的建议书能申报到相符的科学代码之下,但仍然有20%的建议书或许存在着偏差。要是没有注意到这种偏差,直接通过代码对语料进行挖掘,进行相应的分析,那么得到的结果就会出现偏差。
为了防止偏差的出现,本次研究通过文本分类的方式建议书文本集合进行相应的处理。通过文本分类的方式,能按照文本内容来对文本类别进行自动确定。同时还能进行相应的分类,按照反复分类的方式将存在偏差的建议书分类到正确的代码之下。在此基础上,对相关领域进行分析。
4 对文本聚类进行相应的处理和评价
把学科代码当作学科领域中的内容,然后再进行相应的学科领域分析,这种方式较为科学和准确,但这种方式还有着一些问题:①建立相应的学科代码是为了充分利用而设立的,因此学科代码在分类的过程中不是完全根据学科分类而进行划分的。学科代码只能对学科领域的情况进行部分反映,并不能全部包括无法对所有领域的学科情况进行反应,而且在对有些学科进行划分的过程中可能过于细致,但在学科领域划分时过于细致或许是不必要的。②学科代码体系会在较短的时间之内保持不变,但科学技术在发展的过程中是不断变化的,研究的领域和内容不断出现,学科领域也会出现相应的变化,因此学科代码不能对科学研究的情况进行完全反映,而且也不能对学科领域随着时间的变化情况进行完全反映。从建议书语料里面对学科领域进行相应的划分,也是很好的研究方式。所以本次研究主要通过文本聚类的方式对建议书语料进行相应的划分,然后把聚类所获得的结论叫做学科簇类,从而对学科领域的情况进行反映。
5 文本挖掘的前景
数据挖掘技术是数据技术发展过程中的一个全新领域,文本挖掘的时间相对较短。传统的信息检索技术对信息量较大的数据处理效果不是很好,因此文本挖掘就显得更为重要了,由此可发现文本挖掘技术主要是从信息挖掘领域而逐渐发展起来的。
随着网计算机技术的不断发展,用户能获得娱乐资讯、商业信息到新闻报道、技术资料等多方面的信息和文档,从而形成了一个十分广阔的有着异构性、开放性特征的数据资料库,在这个数据库中有着很多的非文本数据。然后再和人工智能中的计算机语言学以及自然语言理解进行结合,在数据挖掘的过程中产生了两种新兴的领域:文本挖掘以及网络挖掘。
网络挖掘的过程中主要是分析和挖掘网络中的有关数据,主要有链接结构(运行过程中所产生的网络导航)、文本。一个网页中有着各个方面的数据类型,所以网络挖掘的内容就包括了图像挖掘、数据挖掘、文本挖掘等。文本挖掘是一种较为新颖的数据挖掘方式,主要的目的就是把文本信息转变为人类能应用的知识。
6 结束语
综上所述,当前有越来越多的研究人员把学科的特征、整体性质当作学科研究的重点,再次认识学科的特点,从而不断发掘学科的发展规律、特征、性质和整体结构的重要性,探究各个学科的特点,研究学科之间的较差部分以及整个学科的演化趋势,这对开展学科研究、各个学科之间协调发展有着十分重要的作用。
参考文献
[1]任 刚.面向学科相关性分析的文本关联规则挖掘技术研究[D].长沙:中南大学,2011.
[2]陈 黎.基于文本挖掘的学科领域相关问题研究[D].大连:大连理工大学,2008.
收稿日期:2018-3-26
作者简介:马敏中(1992-),男,广东广州人,本科,从事教育工作。