论文部分内容阅读
摘 要:在税务领域如何对纳税人的税收优惠政策推广更具有针对性、引导性,使能享受税收优惠政策的纳税人及时充分享受税收优惠政策的红利,是税务机关精准服务的难点之一。本文利用文本相似度以及改进的推荐算法确定两个目标集合,然后通过两个集合取并集的方式确定最终目标纳税人群体,实现税收优惠政策的精准推荐服务。
关键词:税收优惠政策;精准推荐;文本相似度;推荐算法
中图分类号:TP3 文献标识码:A
引言
现有的税收优惠政策宣传主要通过纳税学堂辅导、专题讲座、网站政策公告等传统的方式,传统方式一方面时效性较差,另一方面对纳税人没有针对性,使很多满足要求的纳税人无法及时享受优惠政策的红利。
推荐系统[1]的应用已经在多个领域进行使用,本文旨在将推荐系统在税务精准服务中进行运用,又考虑到税收优惠政策自身的业务性,通过运用NLP(自然语言处理)分析税收优惠政策和纳税人之间的关联关系,同时结合推荐算法构建融合模型,以便更精准地把税收优惠政策推荐给真正需要该政策的纳税人。
1材料与方法
1.1使用NLP获取第一目标集合
步骤101:获取纳税人的基本信息,包括行业类型、经营范围、资格类型、企业类型、组织机构类型、缴税信息、职工信息以及已享受税收优惠政策信息。
步骤102:利用TF-IDF[2][3]对所述基本信息进行数据提取转换,得到基本信息特征向量。
步骤103:获取纳税人当前享受的税收优惠政策。
步骤104:对所述税收优惠政策进行数据提取,得到税收优惠政策特征向量。对所述税收优惠政策进行分词,得到多个第二关键词;对多个所述第二关键词进行优化,得到优化后的第二关键词;根据所述优化后的第二关键词,确定税收优惠政策特征向量。
Step1:生成税收优惠政策关键词。获取正在享受的所有税收优惠政策的文件,根据文件内容结合已享受纳税人信息,通过分词生成税收优惠政策的关键词;
Step2:利用TF-IDF计算税收优惠政策特征向量,计算与已享受纳税人的相似度,针对与已享受纳税人相似度较低的税收优惠政策进行关键词优化;
Step3:重复Step2直至60%以上的税收优惠政策与已享受纳税人的相似度均不为0,确定最终关键词并形成税收优惠政策特征向量。
步骤105:计算所述基本信息特征向量与所述税收优惠政策特征向量之间的相似度。
相似度S计算如下[4]:
其中Ai为第i个税收优惠政策的n维特征向量,Bi为第i个纳税人的n维特征向量,θ为两特征向量的夹角。
步骤106:根据所述相似度以及设定阈值,获取第一目标纳税人集合。通过设定相似度S大于阈值T获取目标纳税人;阈值T根据税收优惠政策不同而不同,设定为某一税收优惠政策与已享受纳税人的相似度的最小值。基于内容利用NLP分析获取的目标纳税人集合U1={U1(i),i=1,2,...,n},其中U1(i)为NLP获取的税收优惠政策i的第一目标纳税人集合。
1.2使用推荐算法获取第二目标集合
通过协同过滤算法[5],基于改进的相似度,获取第二目标纳税人集合。
步骤1:计算纳税人同现相似度,找出与目标纳税人相似的纳税人集合。纳税人同现相似度为改进的余弦相似度,计算如下:
其中表示纳税人和纳税人的相似度,表示纳税人享受的税收优惠政策集合,表示纳税人享受的税收优惠政策集合,是享受税收优惠政策的纳税人集合,分子中的倒数惩罚了纳税人和纳税人共同享受的税收优惠政策中热门税收优惠政策对他们的相似度影响[6]。
步骤2:找出纳税人集合中相似納税人享受的、但目标纳税人没有享受的税收优惠政策推荐给目标纳税人。纳税人对税收优惠政策的兴趣度计算如下:
其中表示纳税人对税收优惠政策的兴趣度,表示纳税人对税收优惠政策的兴趣,此处等于纳税人享受税收优惠政策的次数。基于行为利用改进的基于用户的协同过滤算法获取的目标纳税人集U2={U2(i)i=1,2,...,n},其中U2(i)为改进的基于用户的协同过滤算法获取的税收优惠政策i的第二目标纳税人集合。
1.3最终目标集合确定
根据所述第一目标集合U1以及所述第二目标集合U2,最终目标集合通过两者取并集来获取。享受税收优惠政策i的纳税人集合U(i)=U1(i)∪U2(i),最终目标集合U={U(j),j=1,2,...,n},其中j代表第j个税收优惠政策。
2结论
(1)基于税收优惠政策内容与已享受的纳税人信息的关联性,利用NLP不断训练税收优惠政策关键词,建立“税收优惠政策词库”;
(2)改进的基于用户的协同过滤算法,纳税人相似度计算中消除了热门税收优惠政策对纳税人的相似度影响,使算法得到的结果更具有现实意义;
(3)将NLP与协同过滤算法相结合,取两种模型获取的纳税人集合并集作为最终目标群体,实现税收优惠政策的精准服务,在避免传统的无针对性的广撒网模式的同时又能尽量保证目标群体无遗漏,精准找到目标群体;在给税务干部提供管理决策支撑的同时,为纳税人推送个性化服务,为税务行业的精准服务提供便捷。
参考文献
[1] 孟祥武,胡勋,王立才,等 . 移动推荐系统及其应用 [J]. 软件学报,2013,24(1):91-108.
[2] Gu Y,Yang Z,Xu G,et al. Exploration on efficient similar sentences extraction[J]. World Wide Web,2014,17(4):595-626..
[3] 周丽杰,于伟海,郭成. 基于改进的TF-IDF方法的文本相似度算法研究[J]. 泰山学院学报,2015,37(003):18-22.
[4] 张启宇,朱玲,孙爱娥. 文本相似度的计算[J]. 电脑知识与技术:学术交流,2008.
关键词:税收优惠政策;精准推荐;文本相似度;推荐算法
中图分类号:TP3 文献标识码:A
引言
现有的税收优惠政策宣传主要通过纳税学堂辅导、专题讲座、网站政策公告等传统的方式,传统方式一方面时效性较差,另一方面对纳税人没有针对性,使很多满足要求的纳税人无法及时享受优惠政策的红利。
推荐系统[1]的应用已经在多个领域进行使用,本文旨在将推荐系统在税务精准服务中进行运用,又考虑到税收优惠政策自身的业务性,通过运用NLP(自然语言处理)分析税收优惠政策和纳税人之间的关联关系,同时结合推荐算法构建融合模型,以便更精准地把税收优惠政策推荐给真正需要该政策的纳税人。
1材料与方法
1.1使用NLP获取第一目标集合
步骤101:获取纳税人的基本信息,包括行业类型、经营范围、资格类型、企业类型、组织机构类型、缴税信息、职工信息以及已享受税收优惠政策信息。
步骤102:利用TF-IDF[2][3]对所述基本信息进行数据提取转换,得到基本信息特征向量。
步骤103:获取纳税人当前享受的税收优惠政策。
步骤104:对所述税收优惠政策进行数据提取,得到税收优惠政策特征向量。对所述税收优惠政策进行分词,得到多个第二关键词;对多个所述第二关键词进行优化,得到优化后的第二关键词;根据所述优化后的第二关键词,确定税收优惠政策特征向量。
Step1:生成税收优惠政策关键词。获取正在享受的所有税收优惠政策的文件,根据文件内容结合已享受纳税人信息,通过分词生成税收优惠政策的关键词;
Step2:利用TF-IDF计算税收优惠政策特征向量,计算与已享受纳税人的相似度,针对与已享受纳税人相似度较低的税收优惠政策进行关键词优化;
Step3:重复Step2直至60%以上的税收优惠政策与已享受纳税人的相似度均不为0,确定最终关键词并形成税收优惠政策特征向量。
步骤105:计算所述基本信息特征向量与所述税收优惠政策特征向量之间的相似度。
相似度S计算如下[4]:
其中Ai为第i个税收优惠政策的n维特征向量,Bi为第i个纳税人的n维特征向量,θ为两特征向量的夹角。
步骤106:根据所述相似度以及设定阈值,获取第一目标纳税人集合。通过设定相似度S大于阈值T获取目标纳税人;阈值T根据税收优惠政策不同而不同,设定为某一税收优惠政策与已享受纳税人的相似度的最小值。基于内容利用NLP分析获取的目标纳税人集合U1={U1(i),i=1,2,...,n},其中U1(i)为NLP获取的税收优惠政策i的第一目标纳税人集合。
1.2使用推荐算法获取第二目标集合
通过协同过滤算法[5],基于改进的相似度,获取第二目标纳税人集合。
步骤1:计算纳税人同现相似度,找出与目标纳税人相似的纳税人集合。纳税人同现相似度为改进的余弦相似度,计算如下:
其中表示纳税人和纳税人的相似度,表示纳税人享受的税收优惠政策集合,表示纳税人享受的税收优惠政策集合,是享受税收优惠政策的纳税人集合,分子中的倒数惩罚了纳税人和纳税人共同享受的税收优惠政策中热门税收优惠政策对他们的相似度影响[6]。
步骤2:找出纳税人集合中相似納税人享受的、但目标纳税人没有享受的税收优惠政策推荐给目标纳税人。纳税人对税收优惠政策的兴趣度计算如下:
其中表示纳税人对税收优惠政策的兴趣度,表示纳税人对税收优惠政策的兴趣,此处等于纳税人享受税收优惠政策的次数。基于行为利用改进的基于用户的协同过滤算法获取的目标纳税人集U2={U2(i)i=1,2,...,n},其中U2(i)为改进的基于用户的协同过滤算法获取的税收优惠政策i的第二目标纳税人集合。
1.3最终目标集合确定
根据所述第一目标集合U1以及所述第二目标集合U2,最终目标集合通过两者取并集来获取。享受税收优惠政策i的纳税人集合U(i)=U1(i)∪U2(i),最终目标集合U={U(j),j=1,2,...,n},其中j代表第j个税收优惠政策。
2结论
(1)基于税收优惠政策内容与已享受的纳税人信息的关联性,利用NLP不断训练税收优惠政策关键词,建立“税收优惠政策词库”;
(2)改进的基于用户的协同过滤算法,纳税人相似度计算中消除了热门税收优惠政策对纳税人的相似度影响,使算法得到的结果更具有现实意义;
(3)将NLP与协同过滤算法相结合,取两种模型获取的纳税人集合并集作为最终目标群体,实现税收优惠政策的精准服务,在避免传统的无针对性的广撒网模式的同时又能尽量保证目标群体无遗漏,精准找到目标群体;在给税务干部提供管理决策支撑的同时,为纳税人推送个性化服务,为税务行业的精准服务提供便捷。
参考文献
[1] 孟祥武,胡勋,王立才,等 . 移动推荐系统及其应用 [J]. 软件学报,2013,24(1):91-108.
[2] Gu Y,Yang Z,Xu G,et al. Exploration on efficient similar sentences extraction[J]. World Wide Web,2014,17(4):595-626..
[3] 周丽杰,于伟海,郭成. 基于改进的TF-IDF方法的文本相似度算法研究[J]. 泰山学院学报,2015,37(003):18-22.
[4] 张启宇,朱玲,孙爱娥. 文本相似度的计算[J]. 电脑知识与技术:学术交流,2008.