论文部分内容阅读
近些年管理科学学科的相关研究数量在不断的增加,面对日益剧增和参差不齐的学术资源,如何及时准确的划分我国管理科学学科研究领域并把握研究的热点和前沿,对于科研工作者进行选题和资助申请都有重要意义。前人的相关研究中多使用文献数量计量法或基金论文关键词结合共现分析的方法,有较为主观的局限性。少数使用文本挖掘方法的文章,由于在预处理及模型调优上做的工作有限,得到的结果说服力不足。为了尝试使用文本挖掘的方法识别热点和前沿,并提升结果的合理性和客观性。本文选取国家自然科学基金中管理科学类基金项目的“关键词+摘要”作为语料文本,为了提高结果的准确性和科学性,在第三章中我们通过改进用户词典生成算法以提升分词结果的准确性,在第四章中提出热点词和新兴词及其量化方法为基于文本挖掘视角识别研究热点及前沿提供新思路,在第五章中我们对LDA主题模型进行调优并对主题词项计算方法改进。为了提高文本挖掘结果的准确性,通过jieba分词模式选取、词项合并、去停用词、词性筛选这四个步骤进行文本的预处理。通过比较新词和专业领域用户词的异同,借鉴前人在新词发现中使用的算法,并且加以改进,使用初步分词得到的词项作为单元而不是每个字,结合互信息和左右信息熵以及词频筛选,生成专业领域用户词用于词项合并,以优化分词结果。基于本研究中界定的研究热点和研究前沿的概念,本研究首先在第四章中给出了热点词和新兴词的概念并进行量化,以提供一个新的基于文本挖掘的方法来识别研究热点和前沿并分析其发展变化情况。发现基金申请时间为1993年到2015年的结题基金项目中,关于企业、经济、知识、资源、评价这五个话题的研究一直受到广泛的关注,且相邻两年基金所关注的热点问题的延续性越来越高。根据新兴词的结果,国内管理科学类研究的研究前沿可以被明显的划分为五个时间阶段,且该阶段的研究前沿与该阶段的国家政策和经济发展形势是相符的,基金项目在资助时会更多的关注符合当前国情和形势的研究内容,同时也体现了管理科学对社会和经济生产的理论支撑作用。在第五章中使用了LDA主题模型对我国管理科学学科的研究领域进行划分,相比于前人研究中对管理科学领域研究内容的划分,本研究中通过对分词结果优化,LDA最优主题个数的确定,主题词项相关程度的计算上的改进,得到的研究主题划分更加合理和细致。从1993年到2015年的结题基金项目中可以发掘出17个不同的研究主题代表了管理科学的17个不同的研究领域,并通过主题强度和主题新颖度识别了其中的10个热点主题及9个前沿主题。研究发现“中国经济增长以及节能减排和货币政策研究”、“企业战略竞争及知识创新能力研究”、“上市公司及公司监管治理研究”、“产业集群和产业升级以及知识产权相关研究”、“人力资源管理及员工绩效管理相关研究”这五个研究主题与国家政策结合较紧密,在基金项目中关注度较高,在现阶段属于热点前沿主题,应引起科研工作者的关注。本研究对前人热点前沿相关研究中的一些局限性做了改进,在研究数据上选取国家自然科学基金中管理科学类基金项目的“关键词+摘要”作为语料文本。在研究内容上对研究热点和研究前沿之间的联系进行了讨论,界定了从文本数据的视角下的研究热点和研究前沿应具有的特征。在研究方法上,在文本预处理阶段借鉴新词发现中的算法,提出了使用初步分词的词项而不是单个字作为词元的改进,结合互信息和左右信息熵来生成针对不同文本数据的用户词典,该方法得到的结果具有较高的准确度并能节省大量的人工处理时间;提出了从词的角度来反映研究热点和研究前沿的热点词和新兴词概念及量化指标,以及分析其发展变化的指标方法,为挖掘文本数据中的潜在热点和前沿话题及其变化提供了新的思路;通过对LDA主题模型的调优,通过最优主题个数的确定以及主题词项相关程度计算方法的改进,得到了较为准确和合理的研究领域划分结果。