论文部分内容阅读
税收是国家主要的财政来源,是国家正常运行的保障.当前,税务工作面临两类主要风险:一类是税务执法风险,由于税法的复杂性,税务工作者在适用相关法律条文时容易出现错误,造成税务工作者因失职渎职受到法律的制裁;另一类是税务管理风险,例如增值税发票虚开,会使得税基被严重侵蚀,造成税款流失.鉴于此,本文以税务系统的核心业务数据为数据源,基于形式概念分析自动构建税务领域本体,并积极探索税务领域本体在词汇相似度计算、法律条文自动推荐以及领域本体在税务风险自动识别中的应用,以实现对两种主要税务风险的防范.
本文的主要研究内容及创新工作可归纳如下:
(1)研究了税务领域本体的自动构建方法,提出了基于形式概念分析的税务领域本体自动构建方法.该方法以形式概念分析为工具,首先基于句法分析从非结构化资源中获取形式背景、基于多表融合的方法从结构化资源构建形式背景,然后将两部分形式背景融合,实现面向异构资源的概念格构造方法,最后定义相应的转换规则将概念格转化为本体,实现了本体的自动构建.该方法实现了从海量的非结构化和结构化的税务数据中自动构建领域本体,提高了税务领域本体的构建效率和质量,并将构建的税务领域本体应用到税务风险防范中.
(2)研究了税务领域词汇相似度的计算方法,提出了基于本体和向量化的词汇相似度计算方法.该方法融合了基于税务本体的方法、基于词向量的方法以及基于本体向量化的方法.在基于税务本体的方法中,考虑了最短路径长度、深度以及细化度三个方面的特征;在基于词向量化的方法中,本文以核心征管、税务文本和通用语料库实现词向量化;在基于本体向量化的方法中,首先提出了基于概念格的本体向量化构建方法,其次给出了基于自编码机的本体向量降维方法.这一计算方法为税务领域本体结合多标号朴素贝叶斯分类方法实现税务执法风险防范和使用领域本体优化Apriori算法实现税务管理风险防范提供了算法基础.
(3)研究了法律条文的自动推荐方法,提出了基于税务领域本体和文本分类的法律条文自动推荐方法.该方法将法律条文的自动推荐问题转换为分类问题.通过自然语言处理技术和税务领域词汇相似度的计算方法分析金税工程的征管系统中存储的各类涉税违法案件的法律文书和稽查报告,借助于朴素贝叶斯分类算法,提出了基于税务领域本体的多标号朴素贝叶斯分类方法.将稽查报告输入该分类模型,实现税务法律事实所触犯法律条文的自动推荐.实验结果表明,本文构建的分类模型可以准确地推荐法律条文,有效的防范税务执法风险.
(4)研究了税务管理风险自动识别方法,提出了基于本体和DO-Apriori的税务管理风险自动识别方法.本文主要针对"增值税专用发票进销项明显不匹配"这一项风险进行识别.首先以形式概念分析为基础,使用税务领域词汇相似度的计算方法将税务数据库系统中的发票数据映射为税务领域本体中的两个子本体"国民经济行业本体"和"产品分类本体".然后基于两个子本体和Apriori实现了DO-Apriori算法,大大降低了Apriori算法的时间复杂度;最后将DO-Apriori算法应用于税务风险的自动识别中.实验结果证明,本文提出的方法可以有效识别税务管理风险,并在实践中取得了良好的防范效果.
本文的主要研究内容及创新工作可归纳如下:
(1)研究了税务领域本体的自动构建方法,提出了基于形式概念分析的税务领域本体自动构建方法.该方法以形式概念分析为工具,首先基于句法分析从非结构化资源中获取形式背景、基于多表融合的方法从结构化资源构建形式背景,然后将两部分形式背景融合,实现面向异构资源的概念格构造方法,最后定义相应的转换规则将概念格转化为本体,实现了本体的自动构建.该方法实现了从海量的非结构化和结构化的税务数据中自动构建领域本体,提高了税务领域本体的构建效率和质量,并将构建的税务领域本体应用到税务风险防范中.
(2)研究了税务领域词汇相似度的计算方法,提出了基于本体和向量化的词汇相似度计算方法.该方法融合了基于税务本体的方法、基于词向量的方法以及基于本体向量化的方法.在基于税务本体的方法中,考虑了最短路径长度、深度以及细化度三个方面的特征;在基于词向量化的方法中,本文以核心征管、税务文本和通用语料库实现词向量化;在基于本体向量化的方法中,首先提出了基于概念格的本体向量化构建方法,其次给出了基于自编码机的本体向量降维方法.这一计算方法为税务领域本体结合多标号朴素贝叶斯分类方法实现税务执法风险防范和使用领域本体优化Apriori算法实现税务管理风险防范提供了算法基础.
(3)研究了法律条文的自动推荐方法,提出了基于税务领域本体和文本分类的法律条文自动推荐方法.该方法将法律条文的自动推荐问题转换为分类问题.通过自然语言处理技术和税务领域词汇相似度的计算方法分析金税工程的征管系统中存储的各类涉税违法案件的法律文书和稽查报告,借助于朴素贝叶斯分类算法,提出了基于税务领域本体的多标号朴素贝叶斯分类方法.将稽查报告输入该分类模型,实现税务法律事实所触犯法律条文的自动推荐.实验结果表明,本文构建的分类模型可以准确地推荐法律条文,有效的防范税务执法风险.
(4)研究了税务管理风险自动识别方法,提出了基于本体和DO-Apriori的税务管理风险自动识别方法.本文主要针对"增值税专用发票进销项明显不匹配"这一项风险进行识别.首先以形式概念分析为基础,使用税务领域词汇相似度的计算方法将税务数据库系统中的发票数据映射为税务领域本体中的两个子本体"国民经济行业本体"和"产品分类本体".然后基于两个子本体和Apriori实现了DO-Apriori算法,大大降低了Apriori算法的时间复杂度;最后将DO-Apriori算法应用于税务风险的自动识别中.实验结果证明,本文提出的方法可以有效识别税务管理风险,并在实践中取得了良好的防范效果.