论文部分内容阅读
编者按:“十四五”期间,我国将大力推进数字产业化和产业数字化转型、加速数字经济发展,科技成为金融机构提高业务能力的主要驱动力之一,金融科技的时代已经到来。日前,由清华大学经济管理学院金融系何平教授指导、清华大学经济管理学院九名本科生和北京邮电大学信息与通信工程学院一名本科生组成的“经智风行”实践支队,围绕“面向智能化风控的商业银行数字化转型”主题,对龙盈智达(北京)科技有限公司首席数据科学家王彦博博士进行了专访。王彦博是英国利物浦大学培养的首批数据挖掘专业博士,是国内首批数据保护官(EXIN DPO)之一;曾在英国曼彻斯特大学、剑桥大学担任博士后副研究员和访问学者;长期从事大数据、人工智能、区块链、量子科技和金融科技相关工作;曾领导和参与了多项重点项目及课题研究,获省部级科技奖励10项、国家专利1项、软件著作权20余项,参与研制金融行业标准3项,发表著作1部、译著1部、著作章节4篇、专业论文90余篇,参与编写金融专业书刊2部、专业培训教材3本;曾带领团队多次获得国内外AI大数据重要赛事奖项,包括IEEE Big Data Cup全球冠军、中国计算机学会“大数据与计算智能”大赛全国冠军等; 曾获得国家优秀自费留学生奖学金、英国政府ORS海外研究学生基金计划等重要奖励。
课题组:近年来国内多家商业银行相继成立金融科技公司。请问,推动商业银行成立金融科技公司的契机是什么?
王彦博:我国在金融科技相关领域正处于百年难逢的“弯道超车”“换道超车”历史机遇期。商业银行作为支撑实体经济发展、维护金融稳定、促进国民经济内外循环的金融机构,也正在发生巨大的变革。以大数据、人工智能、区块链、量子科技为代表的新兴技术正在重塑传统商业银行的业务流程、发展模式、客户服务模式和经营理念,数字化基因也逐步根植到商业银行精准营销、智能风控、监管合规、智慧经营等方方面面。在此背景下, 国内银行纷纷布局金融科技,将金融科技与数字化转型确立为自身发展的战略目标,银行系金融科技公司由此应运而生。
课题组:当前数字经济时代,各行各业都在加快数字化转型步伐。请问,银行系金融科技公司在银行数字化转型中扮演着什么样的角色?
王彥博:由于不同商业银行在金融科技战略方面的侧重点有所不同,银行系金融科技公司承担的使命和角色也略有差异。有的金融科技子公司侧重于服务母行,旨在“加速推进经营转型”“更好地服务集团”;有的侧重于面向市场,致力于向同业输出经验和技术;有的则两者兼具,提出“立足母行、服务集团、面向市场”的目标。总体而言,银行系金融科技公司在银行数字化转型中起到了“助推器”和“加速器”的作用。
课题组:银行是经营风险的机构,智能风控是银行数字化转型中的重要方向。请问,数字经济时代,银行智能风控方面有什么新的技术发展?
王彦博:数字经济时代,数据首次被正式纳入生产要素范围,与土地、劳动力、资本、技术等传统要素并列。在此背景下,银行智能风控基于信贷资产类业务所服务客群的不同,呈现出以下三种技术发展模式。
一是面向具有大规模数据样本的C 端和小B端客群,比如消费金融、小微金融、普惠金融等零售板块业务属于该类型。鉴于该类业务的数据样本量充足,用以描述样本的数据标签字段丰富,相关数据的结构化、标准化程度高,总体数据质量较好,通常可运用数据挖掘和机器学习中的有监督学习分类算法,从数据中归纳知识,构建智能风控模型,从而以大数据、人工智能等数字化技术,对人类风控专家通过经验积累形成的风控模型进行验证和补充,以海量数据生产要素为基础,萃取提炼出风控智能。
二是面向数据样本量(及数据标签字段丰富度)较为匮乏的大B端客群,比如公司金融、机构金融、投资银行等对公板块业务属于该类型。该类业务是银行的传统业务,在授信风控方面往往呈现出“依托专家经验”“依赖抵质押品”“一户一议一策”等特点。为推进从“一户一议”走向集约化管理,业内通常会基于多方专家经验形成风控规则模型。随着数字化技术的发展,在专家规则模型的基础上,业内开始采用NLP技术和图数据结构,对专家知识经验进行知识抽取、知识融合、知识加工、知识更新等处理,从而形成风控知识图谱模型,更加有效地表达展现、推演完善和智能应用相关模型。
三是介于前二者之间的面向中B端客群,比如中小企业金融,或是以服务中小企业、民营企业为理念,打通大、中、小B端客群,辐射C端客群的产业数字金融。该类业务的数字化授信和智能风控技术可谓业界未解之难题。从数据要素视角来看,当该类业务按行业、区域等维度进行市场细分后,无论是总体数据样本量、“坏”样本数量,还是数据标签字段丰富度,均不足以支持经典的有监督学习分类算法建模;此外,该类业务的客户数量明显比传统对公业务大客户数量多,采用“一户一议一策”的专职审批方式根本不现实。经过研究分析,人类在知识探索方面主要基于三种逻辑推理范式:一是演绎推理,即由“一般”到“特殊”的推理方式,通常由一个一般性原理推导出适用于多个特定事物的结论,也就是我们常说的“Top-down”(举一反三);二是归纳推理,即由“个别”到“一般”的推理方式,通常由多个特殊个体事例推导出一个一般性原理、原则、规律或模式,也就是我们常说的“Bottom-up”(可以理解为“举十反一”);三是类比推理,即由“个例”到“个例”的推理方式,我们常说的“像什么就是什么”“近朱者赤、近墨者黑”“物以类聚、人以群分”讲的就是这个概念,可以看作是“Case-based”(举三反一)。我们团队沿着上述三条路径,对相关业务的数字化授信与智能风控技术进行探索,得到了一些初步结果。
首先,虽无法“举十反一”,但“举三反一”的小样本量还是有的。同时,类比推理天然具备抗衡“数据样本在类别间不平衡”“数据样本量过小”的优势,因此在AI大数据算法层面基于SVM支持向量机、KNN最近邻、ARM关联规则挖掘等具有类推主义特性的算法深入探索创新,初步结果表明相关风控算法建模方案可行。此外,将相近业务领域已经构建的有监督学习分类模型迁移至当前领域,以迁移学习的方式获得风控智能亦可行,此方案可以看作“Top”层面的类比推理。 其次,基于演绎推理“举一反三”所构建的专家经验规则模型,可进一步运用AHP层次分析等方法,向风控评分卡模型方向发展,并通过小样本数据积累对评分卡模型中的指标权重进行测算和优化。相关的权重优化学习技术亦可用于对风控知识图谱模型中节点间连线上的权重进行计算调优。此外,若能对权重进行计算优化、仿真拟合,则也可对专家规则和知识图谱进行仿真模拟;同时亦可对经营环境进行模拟仿真、数字孪生,因此相关智能风控模型还有望从NLP智能、仿真与强化智能等技术方面进行突破。
第三,在归纳推理方面虽然小样本数据无法直接支持“举十反一”,但既然专家规则、知识图谱、指标权重、连线权重、经营环境等均可模拟仿真,那么我们亦可对数据样本进行仿真模拟。在已有小样本数据的基础上,采用GAN生成对抗网络、SMOTE合成少数类过采样技术等方法衍生数据样本,并纳入到训练数据集中重新构建模型,初步结果表明新训练的风控算法模型较老模型在测试数据集上能够使预测准确性得到提升。
课题组:数据要素对于银行智能风控起到了重要作用,而近期我国相继出台了《数据安全法》和《个人信息保护法》。请问,在银行数字化转型过程中数据安全和隐私保护方面有什么新的技术发展?
王彦博:当前“后大数据时代”,个人隐私与数据安全保护问题已上升至国家高度。《中華人民共和国数据安全法》已由第十三届全国人民代表大会常务委员会第二十九次会议于2021年6月10日审议通过,自2021年9月1日起正式施行;《中华人民共和国个人信息保护法》已由第十三届全国人民代表大会常务委员会第三十次会议于2021年8月20日审议通过,自2021年11月1日起正式施行。可以说,我国的隐私与数据保护立法时代已经开启。
在此背景下,发展隐私计算技术可谓恰逢其时。隐私计算广义上是指面向数据安全与隐私保护的计算系统与技术,涵盖了数据的生产、存储、计算、应用、共享等信息流程全过程,是使敏感数据、隐私信息不被泄露、不可推导、“数据不可见”的现代信息技术的统称。隐私
计算范畴中包含多方安全计算、联邦学习等多种技术,其中多方安全计算又包含同态加密、秘密共享、混淆电路、不经意传输、零知识证明等密码学技术。多方安全计算和联邦学习在涵盖多个主体的金融业务场景中,使各主体间虽需要交互使用数据来协同完成计算和建模任务,但相互之间“数据不可见”,即“数据可用不可见”。
课题组:感谢您的详细介绍。请问,您的团队还在哪些领域进行创新探索,最近两年取得了什么成果。
王彦博:我们团队专注于大数据、人工智能、区块链、量子科技等新兴技术在金融领域的创新应用,具体包括十个方面。
一是在银行精准营销、智能风控、监管合规和智慧经营方面,团队以《基于人工智能的信贷风险管控平台项目》助力母行申报2019年度银行科技发展奖,获省部级科技奖励二等奖。同时,在业界核心期刊发表《智慧银行视角下的商业银行负债质量管理》《商业银行反洗钱智能识别模型应用探析》《FinTech时代探索银行ATM运营及布局的智能化管理》等专业文章。
二是在隐私与数据保护方面,团队参与发表译著《国际信息科学考试学会(EXIN)数据保护官(DPO)认证之隐私和数据保护基础(PDPF)认证指南》,该译著是面向欧盟GDPR的DPO数据保护官认证考试指定教材。2020年,团队参加第八届中国计算机学会“大数据与计算智能”大赛,获得“面向数据安全治理的数据内容智能发现与分级分类”全国二等奖。同时,发表《商业银行隐私与数据保护实施路径探析——面向〈个人信息保护法(草案)的8“O”解读视角〉》专业文章。
三是在数据挖掘与机器学习算法创新方面,团队自主创新了一系列关联规则挖掘、分配规律挖掘及分类算法,研发了《基于SPARK的分配规律挖掘软件》《分类分配规律挖掘软件》《基于MapReduce的多层嵌套分配规律挖掘软件》《分类序列模式挖掘软件》《基于SPARK的有监督分类分配规律挖掘软件》《基于关联规则的数据增强逻辑回归分类挖掘软件》《分类关联规则挖掘软件》和《基于SPARK的关联规则挖掘软件》,并已取得软件著作权。
四是在计算机视觉图像识别方面,团队参加了第七届中国计算机学会“大数据与计算智能”大赛,获得“多人种人脸识别”全国三等奖,并自主研发取得《水果图片称重软件》《图像数据标注软件》等软件著作权。
五是在自然语言处理方面,团队在国际Kaggle平台《CommonLit Readability Prize》NLP竞赛中获得金牌;受邀在神经信息处理系统大会(NuerIPS 2020)上发表演讲;在业界核心期刊发表《NLP在银行网络金融业务中的应用》《基于NLP技术探析法定数字货币对商业银行的影响》等专业文章。
六是在自动语音识别方面,团队在2020国际语音通信会议(INTERSPEECH 2020)国际竞赛中获得全球第三名,并自主研发取得了《基于AutoSpeech的自动音频分类软件》的软件著作权。
七是在强化学习方面,团队对AlphaGo Zero底层的强化学习技术进行改进并运用至医保领域,在“北京数智医保创新竞赛”医保宏观决策支持赛题中获潜力奖;将强化学习技术迁移至银行风险定价领域,发表了《基于深度强化学习的银行风险定价策略探析》专业文章。
八是在RPA机器人方面,团队自主研发取得了《AutoModeling自动数据挖掘建模RPA机器人软件》的软件著作权,发表《疫情之下的金融科技创新——自动数据挖掘建模RPA机器人创新技术应用》专业文章。
九是在区块链方面,团队参与研制由中国人民银行发布的《金融分布式账本技术安全规范》(JR/T 0184-2020)和《区块链技术金融应用 评估规则》(JR/T 0193-2020)两项行业标准;凭借“保护商业机密的普惠金融监管算法”在2020年数字中国创新大赛区块链赛道获得优胜奖;发表《基于区块链“7C”视角解读和洞察〈金融分布式账本技术安全规范〉》《基于区块链和多方安全计算技术的联合征信应用》等专业文章。
十是在量子金融科技方面,团队在“世界人工智能大会——全球创新项目路演”中,凭借《基于量子神经网络算法的银行智能运营管理应用项目》入围了全球TOP 20创新项目;发表《FinTech时代量子科技在金融领域的应用展望》《量子科技在商业银行的应用》《量子信息时代银行业的机遇、挑战与变革》等专业文章。
(作者单位:清华大学经济管理学院,北京邮电大学信息与通信工程学院;课题组成员包括黄子悦、刘楚君、刘欣然、刘逸然、吴佳倪、向轶、杨荣哲、袁媛、 张舒文、朱俐,按课题组成员姓氏首字母顺序排列)
课题组:近年来国内多家商业银行相继成立金融科技公司。请问,推动商业银行成立金融科技公司的契机是什么?
王彦博:我国在金融科技相关领域正处于百年难逢的“弯道超车”“换道超车”历史机遇期。商业银行作为支撑实体经济发展、维护金融稳定、促进国民经济内外循环的金融机构,也正在发生巨大的变革。以大数据、人工智能、区块链、量子科技为代表的新兴技术正在重塑传统商业银行的业务流程、发展模式、客户服务模式和经营理念,数字化基因也逐步根植到商业银行精准营销、智能风控、监管合规、智慧经营等方方面面。在此背景下, 国内银行纷纷布局金融科技,将金融科技与数字化转型确立为自身发展的战略目标,银行系金融科技公司由此应运而生。
课题组:当前数字经济时代,各行各业都在加快数字化转型步伐。请问,银行系金融科技公司在银行数字化转型中扮演着什么样的角色?
王彥博:由于不同商业银行在金融科技战略方面的侧重点有所不同,银行系金融科技公司承担的使命和角色也略有差异。有的金融科技子公司侧重于服务母行,旨在“加速推进经营转型”“更好地服务集团”;有的侧重于面向市场,致力于向同业输出经验和技术;有的则两者兼具,提出“立足母行、服务集团、面向市场”的目标。总体而言,银行系金融科技公司在银行数字化转型中起到了“助推器”和“加速器”的作用。
课题组:银行是经营风险的机构,智能风控是银行数字化转型中的重要方向。请问,数字经济时代,银行智能风控方面有什么新的技术发展?
王彦博:数字经济时代,数据首次被正式纳入生产要素范围,与土地、劳动力、资本、技术等传统要素并列。在此背景下,银行智能风控基于信贷资产类业务所服务客群的不同,呈现出以下三种技术发展模式。
一是面向具有大规模数据样本的C 端和小B端客群,比如消费金融、小微金融、普惠金融等零售板块业务属于该类型。鉴于该类业务的数据样本量充足,用以描述样本的数据标签字段丰富,相关数据的结构化、标准化程度高,总体数据质量较好,通常可运用数据挖掘和机器学习中的有监督学习分类算法,从数据中归纳知识,构建智能风控模型,从而以大数据、人工智能等数字化技术,对人类风控专家通过经验积累形成的风控模型进行验证和补充,以海量数据生产要素为基础,萃取提炼出风控智能。
二是面向数据样本量(及数据标签字段丰富度)较为匮乏的大B端客群,比如公司金融、机构金融、投资银行等对公板块业务属于该类型。该类业务是银行的传统业务,在授信风控方面往往呈现出“依托专家经验”“依赖抵质押品”“一户一议一策”等特点。为推进从“一户一议”走向集约化管理,业内通常会基于多方专家经验形成风控规则模型。随着数字化技术的发展,在专家规则模型的基础上,业内开始采用NLP技术和图数据结构,对专家知识经验进行知识抽取、知识融合、知识加工、知识更新等处理,从而形成风控知识图谱模型,更加有效地表达展现、推演完善和智能应用相关模型。
三是介于前二者之间的面向中B端客群,比如中小企业金融,或是以服务中小企业、民营企业为理念,打通大、中、小B端客群,辐射C端客群的产业数字金融。该类业务的数字化授信和智能风控技术可谓业界未解之难题。从数据要素视角来看,当该类业务按行业、区域等维度进行市场细分后,无论是总体数据样本量、“坏”样本数量,还是数据标签字段丰富度,均不足以支持经典的有监督学习分类算法建模;此外,该类业务的客户数量明显比传统对公业务大客户数量多,采用“一户一议一策”的专职审批方式根本不现实。经过研究分析,人类在知识探索方面主要基于三种逻辑推理范式:一是演绎推理,即由“一般”到“特殊”的推理方式,通常由一个一般性原理推导出适用于多个特定事物的结论,也就是我们常说的“Top-down”(举一反三);二是归纳推理,即由“个别”到“一般”的推理方式,通常由多个特殊个体事例推导出一个一般性原理、原则、规律或模式,也就是我们常说的“Bottom-up”(可以理解为“举十反一”);三是类比推理,即由“个例”到“个例”的推理方式,我们常说的“像什么就是什么”“近朱者赤、近墨者黑”“物以类聚、人以群分”讲的就是这个概念,可以看作是“Case-based”(举三反一)。我们团队沿着上述三条路径,对相关业务的数字化授信与智能风控技术进行探索,得到了一些初步结果。
首先,虽无法“举十反一”,但“举三反一”的小样本量还是有的。同时,类比推理天然具备抗衡“数据样本在类别间不平衡”“数据样本量过小”的优势,因此在AI大数据算法层面基于SVM支持向量机、KNN最近邻、ARM关联规则挖掘等具有类推主义特性的算法深入探索创新,初步结果表明相关风控算法建模方案可行。此外,将相近业务领域已经构建的有监督学习分类模型迁移至当前领域,以迁移学习的方式获得风控智能亦可行,此方案可以看作“Top”层面的类比推理。 其次,基于演绎推理“举一反三”所构建的专家经验规则模型,可进一步运用AHP层次分析等方法,向风控评分卡模型方向发展,并通过小样本数据积累对评分卡模型中的指标权重进行测算和优化。相关的权重优化学习技术亦可用于对风控知识图谱模型中节点间连线上的权重进行计算调优。此外,若能对权重进行计算优化、仿真拟合,则也可对专家规则和知识图谱进行仿真模拟;同时亦可对经营环境进行模拟仿真、数字孪生,因此相关智能风控模型还有望从NLP智能、仿真与强化智能等技术方面进行突破。
第三,在归纳推理方面虽然小样本数据无法直接支持“举十反一”,但既然专家规则、知识图谱、指标权重、连线权重、经营环境等均可模拟仿真,那么我们亦可对数据样本进行仿真模拟。在已有小样本数据的基础上,采用GAN生成对抗网络、SMOTE合成少数类过采样技术等方法衍生数据样本,并纳入到训练数据集中重新构建模型,初步结果表明新训练的风控算法模型较老模型在测试数据集上能够使预测准确性得到提升。
课题组:数据要素对于银行智能风控起到了重要作用,而近期我国相继出台了《数据安全法》和《个人信息保护法》。请问,在银行数字化转型过程中数据安全和隐私保护方面有什么新的技术发展?
王彦博:当前“后大数据时代”,个人隐私与数据安全保护问题已上升至国家高度。《中華人民共和国数据安全法》已由第十三届全国人民代表大会常务委员会第二十九次会议于2021年6月10日审议通过,自2021年9月1日起正式施行;《中华人民共和国个人信息保护法》已由第十三届全国人民代表大会常务委员会第三十次会议于2021年8月20日审议通过,自2021年11月1日起正式施行。可以说,我国的隐私与数据保护立法时代已经开启。
在此背景下,发展隐私计算技术可谓恰逢其时。隐私计算广义上是指面向数据安全与隐私保护的计算系统与技术,涵盖了数据的生产、存储、计算、应用、共享等信息流程全过程,是使敏感数据、隐私信息不被泄露、不可推导、“数据不可见”的现代信息技术的统称。隐私
计算范畴中包含多方安全计算、联邦学习等多种技术,其中多方安全计算又包含同态加密、秘密共享、混淆电路、不经意传输、零知识证明等密码学技术。多方安全计算和联邦学习在涵盖多个主体的金融业务场景中,使各主体间虽需要交互使用数据来协同完成计算和建模任务,但相互之间“数据不可见”,即“数据可用不可见”。
课题组:感谢您的详细介绍。请问,您的团队还在哪些领域进行创新探索,最近两年取得了什么成果。
王彦博:我们团队专注于大数据、人工智能、区块链、量子科技等新兴技术在金融领域的创新应用,具体包括十个方面。
一是在银行精准营销、智能风控、监管合规和智慧经营方面,团队以《基于人工智能的信贷风险管控平台项目》助力母行申报2019年度银行科技发展奖,获省部级科技奖励二等奖。同时,在业界核心期刊发表《智慧银行视角下的商业银行负债质量管理》《商业银行反洗钱智能识别模型应用探析》《FinTech时代探索银行ATM运营及布局的智能化管理》等专业文章。
二是在隐私与数据保护方面,团队参与发表译著《国际信息科学考试学会(EXIN)数据保护官(DPO)认证之隐私和数据保护基础(PDPF)认证指南》,该译著是面向欧盟GDPR的DPO数据保护官认证考试指定教材。2020年,团队参加第八届中国计算机学会“大数据与计算智能”大赛,获得“面向数据安全治理的数据内容智能发现与分级分类”全国二等奖。同时,发表《商业银行隐私与数据保护实施路径探析——面向〈个人信息保护法(草案)的8“O”解读视角〉》专业文章。
三是在数据挖掘与机器学习算法创新方面,团队自主创新了一系列关联规则挖掘、分配规律挖掘及分类算法,研发了《基于SPARK的分配规律挖掘软件》《分类分配规律挖掘软件》《基于MapReduce的多层嵌套分配规律挖掘软件》《分类序列模式挖掘软件》《基于SPARK的有监督分类分配规律挖掘软件》《基于关联规则的数据增强逻辑回归分类挖掘软件》《分类关联规则挖掘软件》和《基于SPARK的关联规则挖掘软件》,并已取得软件著作权。
四是在计算机视觉图像识别方面,团队参加了第七届中国计算机学会“大数据与计算智能”大赛,获得“多人种人脸识别”全国三等奖,并自主研发取得《水果图片称重软件》《图像数据标注软件》等软件著作权。
五是在自然语言处理方面,团队在国际Kaggle平台《CommonLit Readability Prize》NLP竞赛中获得金牌;受邀在神经信息处理系统大会(NuerIPS 2020)上发表演讲;在业界核心期刊发表《NLP在银行网络金融业务中的应用》《基于NLP技术探析法定数字货币对商业银行的影响》等专业文章。
六是在自动语音识别方面,团队在2020国际语音通信会议(INTERSPEECH 2020)国际竞赛中获得全球第三名,并自主研发取得了《基于AutoSpeech的自动音频分类软件》的软件著作权。
七是在强化学习方面,团队对AlphaGo Zero底层的强化学习技术进行改进并运用至医保领域,在“北京数智医保创新竞赛”医保宏观决策支持赛题中获潜力奖;将强化学习技术迁移至银行风险定价领域,发表了《基于深度强化学习的银行风险定价策略探析》专业文章。
八是在RPA机器人方面,团队自主研发取得了《AutoModeling自动数据挖掘建模RPA机器人软件》的软件著作权,发表《疫情之下的金融科技创新——自动数据挖掘建模RPA机器人创新技术应用》专业文章。
九是在区块链方面,团队参与研制由中国人民银行发布的《金融分布式账本技术安全规范》(JR/T 0184-2020)和《区块链技术金融应用 评估规则》(JR/T 0193-2020)两项行业标准;凭借“保护商业机密的普惠金融监管算法”在2020年数字中国创新大赛区块链赛道获得优胜奖;发表《基于区块链“7C”视角解读和洞察〈金融分布式账本技术安全规范〉》《基于区块链和多方安全计算技术的联合征信应用》等专业文章。
十是在量子金融科技方面,团队在“世界人工智能大会——全球创新项目路演”中,凭借《基于量子神经网络算法的银行智能运营管理应用项目》入围了全球TOP 20创新项目;发表《FinTech时代量子科技在金融领域的应用展望》《量子科技在商业银行的应用》《量子信息时代银行业的机遇、挑战与变革》等专业文章。
(作者单位:清华大学经济管理学院,北京邮电大学信息与通信工程学院;课题组成员包括黄子悦、刘楚君、刘欣然、刘逸然、吴佳倪、向轶、杨荣哲、袁媛、 张舒文、朱俐,按课题组成员姓氏首字母顺序排列)