近日,中国人民银行发布金融行业标准《人工智能算法金融应用评价规范》,发布之日起正式实施。索信达控股有限公司(索信达控股,股票代码:03680.HK)作为金融行业大数据与人工智能解决方案提供商,早在“规范”实施前,于2019年面向国内金融行业率先推出应对AI算法可解释性的“模型翻译机-可解释机器学习”,并已在金融机构成功落地应用。应对AI算法精确性、性能和安全性推出“模型工厂”、“模型管理平台”等全栈解决方案,索信达成为推动人工智能算法金融应用规范管理的先行者。
据悉,《规范》针对当前金融行业人工智能技术应用存在的算法黑箱、算法同质化、模型缺陷等潜在风险问题,建立了人工智能金融应用算法评价框架,从安全性、可解释性、精准性和性能等方面系统化地提出基本要求、评价方法和判定准则,为金融机构加强智能算法应用风险管理提供指引。
《规范》指出,AI算法精准性和性能是计价算法应用效果及目标的主要因素,一般而言精准性和性能越高算法应用效果越好。算法可解释性是判断算法是否适用的重要依据,可解释性越高,算法内在逻辑、技术实现路径、决策过程、预期目标越明晰,算法更易于被理解、匹配、应用和管理。AI算法安全性为算法在金融行业应用提供安全保障,是决定AI算法是否可用的基础,只有在满足安全性要求的前提下,才能在金融领域开展应用。
就人工智能算法和技术如何融入到银行的日常应用规范管理和业务中,索信达控股首席科学家张磊博士总结为“四大能力、八类应用”,并介绍了索信达在银行业的实际的AI应用案例。
助力银行业发展的人工智能四大能力
人工智能这个话题很火,如何和银行业务需求打通,把人工智能技术移驾到银行业本身,这是很多银行客户都很关心的问题。以下是张磊博士基于索信达客户最佳实践,总结构建自身人工智能能力的“四大能力”:
第一,业务能力:以业务能力为出发点,所有技术都要解决业绩问题。索信达已梳理出金融行业可以用AI解决的业务问题,如市场营销、风险管控、财务人事、运营绩效相关的,针对问题进行归类就可以圈出银行业用人工智能数据分析解决问题的范围。
第二,数据能力:以数据为基础,各种数据加工能力为手段,将数据利用起来。人工智能技术和其他的技术有一些不同,它完全依赖数据,若无数据支撑所有先进算法都无作用,所以要有数据储存、加工的能力。
第三,分析能力:以各种先进算法为工具,发现数据中蕴含的有价值的规律。算法的类型像可解释机器学习、自然语言处理、图分析、图计算等,这些算法目前在金融领域用的比较多。
第四,思维能力:索信达帮助企业构建分析思维能力,更加合理有效地发现和解决问题。这点要特别强调!因为总被忽视,很多人掌握了技术也知道业务能力,但是还是解决不了问题,因为缺少思维能力。如何将梳理好的数据、算法、业务问题贯通起来,这就需要分析思维能力。
银行业务问题的分类体系与AI技术的对应关系
银行业面临的业务问题主要分八大类:
分类问题,将输入样本分类到对应类别中。判断客户质量,购买意愿。
估值问题,根据输入信息估算某个指标的数值。如,某家分行下个月存款余额会到多少?
聚类问题,根据实例的相似度进行归类,银行有上亿客户,想将其分成不同的客户客群,还有网点、支行等的分行也是聚类问题。
优化问题,基于目标函数和约束条件生成最优解。如,我有预算100万如何将其花出去达到最大效益?
异常侦测,发现异于常规的实例。如,一笔金融交易是否有问题,是否是欺诈交易,账户间互相的联动是否是洗钱联动。
评级问题,对实例进行排序评级,像信用评级是标准问题。
推荐系统,生成下一步的最佳行动建议。
数据生成,基于已有的数据分布仿真出类似数据。
通过调研可以清楚看到,八类问题的重要程度和价值回报也各有不同。
银行业使用的重点分析技术
银行业会用到很多分析算法,最常用的重点技术包括:随机森林、前馈神经网络、回归分析、分类器、聚类、统计推断、循环神经网络、强化学习。图中越深的颜色代表使用频率较高。
分析专题和数据类型有一定的对应关系,张磊博士认为,无论是做潜客获取或是智能客服或反欺诈、现金库存优化等都是人工智能可以大显身手的领域。
在银行业,AI应用需要重点关注回报最大的业务领域
对于银行业来说,AI应用需要重点关注回报最大的业务领域。盲目地做人脸识别或文档OCR等无法带来明显的业务价值。其中获得回报最大的是市场营销,其次是风险管控。
建立模型工厂,打造五库合一的分析模型生产流水线
索信达打造五库合一的分析模型生产流水线,通过模型工厂,帮助企业进行数据分析建模的现代化生产流水线。它融合了分析建模生产所需的全部装备,做到五库合一:模型库、模板库、代码库、知识库、课件库。只需装填数据原材料,即可自动化生产出可用的标准模型,同时支持个性化定制。
索信达将八大类问题梳理了50多个专题,通过大量实践发现它成型的套路,比如要做资产提升大概分为7个步骤可以分析出来,要做反欺诈可以做9个步骤分析出来,索信达希望通过构建金融业的模型工厂,把银行遇到的每个问题都可以标准化自动化解决。
打造模型管理平台 全局掌控企业模型管理
随着大数据和分析算法的蓬勃发展,金融机构在营销管理、风险管理和决策支持的过程中,研发了大量模型来支持企业的运营与管理。但由于模型数量众多,模型管理的问题随之而来。索信达控股基于多年来在金融行业大数据领域的技术沉淀及经验,率先业界发布了模型管理系统。对企业级投产上线的模型进行评有效的评估、测试、监控以及版本和权限管理。助力金融机构搭建完善的模型管理系统,大幅提升企业统筹管理及运行模型的效率。
模型管理系统以自动化的方式计算各种评估指标,根据模型衰退和数据变化自动预警。通过监控模型的定时验证数据,可在系统每执行一次模型的定时任务后,在模型详情页中查看验证后的指标值数据和对应的图表数据。如果验证失败,则本系统不会生成模型的指标值,且在首页的“事件消息”模块中会显示该模型定时任务运行失败的消息。
索信达模型管理系统有效地解决金融机构等企业模型管理的痛点,大幅度降低模型失控、模型资产管理混乱和依靠人工操作所带来的风险。打造出企业级自动化模型工厂,全方位、自动化、标准化地掌控企业模型管理。
模型翻译机 可解释机器学习
索信达控股率先业界发布推出的可解释机器学习,是金融行业企业级数据挖掘方案。该方案通过融合多种模型和算法,致力于解决银行金融机构现有机器学习模型“黑箱”的问题,帮助银行提升模型透明度,满足监管需要,同时增强模型精度和决策的可靠程度。保证模型高精度条件下,针对客户不同应用场景均能做出深度解释,帮助客户降低模型风险合规风险
据张磊博士介绍,⽬前已在产品精准推荐、客户挖掘、流失预警等多个⾦融类营销场景中开展应⽤和落地,并取得了优秀的成果,使得⼈⼯智能算法和技术能够更好的融入到银行的日常应用规范管理和业务中。
12步搭建客户微细分模型,客户名单命中率最高可提升75%!
索信达通过将结构化数据进行合理的图像化,并创新地运用深度学习算法,挖掘反映客户资产偏好的深层特征,从而有效提升银行现有各个模型的准确性,并通过客户在不同图像状态之间的转移概率,预判出客户资产配置的发展趋势,为一线客户经理提供覆盖全客户的营销方向。
通过引入索信达客户微细分产生的新图像特征,将上线模型(大额存单、结构性存款)前10%名单的命中率提高20%~40%;无论采用何种预测算法,模型均有明显提升,前5%名单的命中率最高提升3/4;直接产生的营销效益高达数百万至上千万。
基于深度学习的客户微细分分析建模流程
客户微细分,是运用算法把客户数据变成图像,以更加细致、更加创新的模型为客户精准画像,给银行业务的开展带来更有价值的决策依据。索信达客户微细分的全部流程分为12个步骤,这是个思考、模拟、反复验证的过程,很是有趣。
第一,以数据图像化为桥梁
人工智能近年来比较火的是深度学习,但深度学习算法主要是做图像识别,适合处理图像,而银行基本上都是结构化数据,例如账户数据、交易数据等,结构化数据无法直接被深度学习算法所用,需要借助数据图像化,把结构化数据变成合理的图像就可以用到这个技术了。
第二,客户的产品资产结构化数据
先来看银行最典型的数据,比如我们拿到了500万富裕零售客户过去12个月的数据,AUM月日均超过5万以上,数据量是每月500万客户,包含的字段信息有AUM、活存余额、定存余额、基金余额、理财余额等。
第三,数据标准化与离散分箱
下图列出5条客户数据,每位客户给出了各项产品的余额。比如第一个客户活存11.8万,定存只有1767元,这是银行常见的数据,数据拿来后会先做标准化,因为一个客户活存余额有10万并不一定代表这个客户喜欢活存,如果他的资产有1000万,把900多万放在定存10万放在活存,显然不能说明他喜欢活存。
第四,相关分析
接下来我们希望将这个数据变成一幅图,才能使用图像识别技术。这个数据可以变成瓦片图,按照比例高低,最高的放在最左边,但是瓦片图最大的问题是没有考虑产品之间的关系,只是简单按照数字大小排。如何把产品之间的关系引用进来呢?比如说理财和基金是不是有互斥的关系。通过相关分析,就可以看出变量之间的相关性是正相关、负相关,哪些相关系数强或弱。
第五,太阳系与万有引力定律
算出相关系数之后,再来看如何改造前面得到的“瓦片图”。张磊博士联想到太阳系九大行星,地球、金星、火星围绕太阳转,这之间的轨道不是很快形成的而是慢慢形成的,是星球间的万有引力才使其形成的,所以运用这种“引力”定位行星的运行轨道。我们只需将活存、定存、国债、基金、理财这些产品视作星球,将彼此间的相关系数视作引力,就可以通过迭代来构造出产品的星系图。
第六,网络布局算法与斥力模型
运用斥力算法,把一堆产品想象成一堆球丢在桌上,相互之间会有引力斥力,当斥力达到平衡时得到最终结果。活存和理财离的比较近代表比较相关,贵金属离的比较远,则相当于很遥远的冥王星。现在可以发现我们已经将刚才的数据变成更有意义的图像了,但这个时候还不适合做深度学习。如果现在是把100张这样的图摆在你面前,你一定会看的眼花缭乱,但是如果把瓶子或椅子放在这里,离100米就能看出大概什么区别,是因为从其轮廓上很自然就能识别出来。目前的图像还没有鲜明的轮廓,所以需要对这些图进行改造。
第七,等高线投影与颜色映射
可以把这些小球想象成一个个山头,可以看到这些山头高高低低的,高高低低的山峰如果想画到二维上通常会用等高线,于是把一堆球变成一堆山峰,再变成一些二维等高线,就得到最开始我展示的那张图。中间最红最亮的就是客户最关心的产品如活存、理财、定存。
第八,一人一图像百花齐放
下面罗列了20张图,有一些图比较类似,比如说倒数第二列第一行第二行,像两块石头堆在一起。有的客户很不一样,有的客户很类似。例如,左上角这个客户只有一块亮就是定期存款,右下角这个客户是重财惜命型,他的资产主要放在人身险和财产险;还有的客户是惜命爱基型,财产放在人身险和基金;再是贷款型以贷款为主,少量活存,大量资产放在贷款,另外有一定的活期存款用来还款;还有白领型,活存和薪金煲为主,其次是人身险,该客户是标准的代发工资客户,工资发下来后会买薪金煲,同时还会买基金,收入应该不会太低,还会买人身险。什么样的代发工资客户在这家工资用信用工资做理财还买人身险,通常来说收入水平会达到一定水平。
第九,图像的自动特征编码
很多图做出来发现比较类似,所以很自然会想到把类似的图像聚类在一起。图像聚类通常会采用自动编码器,算法的输入是这张图像,输出还是这张图像,中间做压缩编码和解码,用几个数字来表示这张图像的主要特征。
第十,密度聚类为客户微状态
把图像变成数字特征后就可以采用聚类算法进行聚类,把类似的图像聚到一起,最开始索信达采用的是AP算法,但是效果太慢,后来又换成了密度聚类算法,原来跑的AP算法大概跑40多分钟,但是换了DBSCAN算法只需要6秒,把类似的图放在一起,就聚成了1616个个类。
第十一,状态随时间的转移概率
索信达发现聚类效果还不错,类中心的代表性比较强,由此就得到了1616个微细分群。如果把每一个微细分群看成一个状态,可以发现每个月客户的状态在不断地变,大部分时候变的很慢,从一张图变成另一张图有业务的含义,先是日常消费,然后尝试买理财,然后申购基金办理理财卡。
第十二,状态转移全景图
索信达将状态演变做成动画,看起来很炫,但是实际有没有用,是否有业务价值呢?张磊博士进行了验证,如果这个图画的比较有意义,用来进行营销应该能带来帮助。银行以前做了结构化存款的响应预测模型,用常规数据丢进去跑一个模型,现在我们用客户微细分之后得到更多的图像特征,如果有提升就代表有价值,最后验证结果是前5%的名单命中率提高25%,前10%名单命中率提高14%,验证了产生的这些图像特征可以给业务明显帮助。
索信达控股首席科学家张磊博士认为,人工智能是银行业把握科技变革对商业社会重塑的奇点性机遇,重新认知和构建银行的生态和企业价值链,重塑银行与社会和客户的链接。《规范》的发布有助于引导金融机构充分发挥人工智能“头雁效应”,加快金融数字化转型步伐,持续推动金融服务更为贴心、更加智慧、更有温度,打造数字经济时代金融创新发展新引擎,助力健全具有高度适应性、竞争力、普惠性的现代金融体系。索信达将会携手银行金融机构共同把握未来银行的机遇,赋能金融生态,共享金融AI未来。