论文部分内容阅读
现如今自然语言处理技术日新月异,其应用领域正在逐渐扩展到当前已知研究领域,各个研究领域的学者也都在研究如何利用自然语言处理技术使当前领域的研究成果迈向新的阶段。在中小企业信用风险研究中依然如此,当前中小企业发展的重要性在国家经济地位中逐步提高,但是关于商业银行以及投资者对于中小企业的扶持却与其所占地位不符,这是由于无法获取中小企业的经营信息以及其资信水平导致的,商业银行以及投资者无法正确对中小企业的信用水平进行评估,从而导致了信用风险的产生。通过梳理近年来中小企业信用风险的相关研究,发现仅集中于财务数据方面的研究会构建出不完善的信用风险评估系统,并且其使用方法多数为传统机器学习算法,利用深度神经网络来进行中小企业信用风险评估的文献占比较少,因此本文着眼于如何利用多源文本数据以及深度学习方法来构建行之有效的信用风险评估系统,阐述了中小企业及其信用风险的定义、特点,与此同时也阐明了自然语言处理相关核心技术的概念以及原理。深入分析了自然语言处理核心流程:任务类型、数据处理、构建模型以及模型评估。对数据处理进行研究分析时,分别以中、英两种语言的数据进行相关说明,针对英文数据构建模型时,在对已有模型进行分析的基础上,本文综合运用了卷积神经网络和门机制,创新性的提出了SGCN模型。通过收集和整理与中小企业相关的舆论以及报道信息并形成特定格式的信用风险数据集,利用中文数据处理方法对该数据进行逐层分析处理,以数据中出现的中小企业作为考察对象,对该数据进行深度学习和训练,构建出适应信用风险数据集的SGCN模型,并以10家中小企业进行模型的可行性验证。实验结果显示,针对中小企业的舆论及报道信息,SGCN模型对于鉴别中小企业信用风险达到了87.69%的准确率,相较于传统鉴别模型85.68%的准确率有着接近两个百分点的提升,对于不同行业的中小企业依然有着一定的泛化能力,对于未知行业的信用风险评估SGCN同样有着高达70%的准确率,达到了理想中的预测效果。因此,在商业银行以及投资者对中小企业信用风险鉴别时,SGCN模型提供了一种基于多源文本的准确、方便快捷识别中小企业信用风险的方法,为其在防控信用风险时提供了参考依据。