数据孤岛难倒AI落地金融业?微众****用联邦学习和GPU这样破局
副标题[/!--empirenews.page--]
智东西(公众号:zhidxcom) 近两年,越来越多企业在思考如何应用人工智能(AI)挖掘更多数据价值。然而训练AI需要大量数据,这些数据却越来越难获得。 即便是信息化起步早、数据丰富的金融业,同样饱受高质量数据缺失的困扰。 金融业看似数据多,实则许多数据未经专业标注,有效数据非常少,大量数据的控制权分散在不同机构、部门,“数据孤岛”问题严重,加之数据隐私保护立法日趋严苛,数据交换与共享受到重重限制。 高度智能化和高度隐私安全如何兼得?难道只有拥有海量数据的机构,才能享受AI带来的效率和成本优化? 产学界探讨的解局之法,逐渐聚焦于一个新兴技术——联邦学习(Federated Learning)。 联邦学习能让多方在数据不离本地的前提下,协作建立一个共享模型,它比任何一方单独训练出的AI模型都更精准,同时不会侵犯隐私。 这一技术在国内的先行者是金融界的“科技代表”微众****,它率先将联邦学习用在解决跨部门、跨企业数据融合问题,并借助从腾讯云调用的NVIDIA GPU资源,用联邦学习技术解决了70%以上无历史信用信息的小微企业贷款难问题,支撑的企业贷款发放量已超过10亿。 作为国内首家民营****、互联网****,微众****一直积极通过人工智能、大数据、区块链等科技创新,推动普惠金融落地。由国际知名AI科学家杨强教授领导的微众****AI团队,对于传统机器学习及联邦学习在金融领域的研究和落地应用均有着深厚积累。 如今,数据孤岛、隐私保护已是传统行业应用AI所面临的共性问题。 微众摸索出的方法,对于传统金融机构以及其他走向智能化的企业来说,同样有借鉴意义。 一、消弭数据鸿沟,微众的另辟蹊径之道为更充分了解联邦学习的技术难点、应用价值和落地经验,近日,我们与微众****人工智能部高级算法研究员黄启军进行了深入交流。 首要问题即是,联邦学习方法怎么兼顾数据聚合、数据保护和性能提升? 黄启军告诉我们,联邦学习与传统机器学习最大的区别,就是交换的数据是密态的。 传统机器学习通常将数据移动到云端数据中心来训练模型,但遇到隐私合规问题时,这类方法就行不通了。 联邦学习不移动各方数据,通过信息与模型参数的加密交换,结合多方数据优势构建一个虚拟的共有模型,这个虚拟模型等同或接近直接把各方数据聚合在一起所训练出的模型。 ▲联邦学习系统构架 微众****提出了三种进行联邦学习的模式:横向联邦学习、纵向联邦学习、联邦迁移学习。 横向联邦学习的各参与方共同用户少,但共同用户特征多。例如谷歌在每个手机上单独建模,然后把模型参数加密后传到云端,对通用模型进行更新,再传送给各个手机。 纵向联邦学习正好相反,各参与方的共同用户特征少,但共同用户多。比如****A有用户的信用评级,电商B有同一批用户的购买记录,两者交换加密后的模型参数,就能合成一个更完备的模型。 联邦迁移学习适用于各参与方既没有共同用户,也缺少共同特征。不过这个方法还处于研究阶段,实际工业应用有待进一步开发。 ▲联邦学习的分类 从理论来看,联邦学习能实现多方共赢。但光谈理论还不够,怎么让它在实际应用场景中发挥更多作用呢? 从2018年到2019年初,微众****AI团队逐步搭建起理论研究、工具软件、技术标准、行业应用的多层级联邦学习生态框架,并吸引腾讯、华为、京东、平安等生态合作伙伴加入。 2019年1月,微众推出全球首个工业级联邦学习开源框架FATE(Federated AI Technology Enabler),开始将联邦学习应用于金融业务。 这个框架提供一系列“开箱即用”的联邦学习算法,以及完善的建模辅助和模型评估工具,还有一套友好的跨域交互信息管理方案,解决了联邦学习信息安全审计难的问题。 也就是说,想应用联邦学习的企业,无需在底层技术方面投入过多精力,就能享受到在保护数据隐私的前提下,通过多方数据联合带来的业务水平提升。 信贷风控、反洗钱、客户权益定价……自FATE推出后,它在金融领域的落地愈发深入。 ▲基于FATE的联合建模 2019年6月25日,微众****成为Linux基金会黄金会员中唯一的金融机构,并将FATE项目贡献给Linux基金会。如今,FATE开源社群已成为业界规模最大的联邦学习开发者社区,吸纳了128家机构企业机构和145所高校应用和共建。 据黄启军介绍,此前GitHub上的联邦学习框架大多属于横向联邦学习方向,而在纵向联邦学习方面达到可用级别的框架,唯有FATE。 由于联邦学习基础平台和架构不同于其他平台,微众特意做了一个分布式计算和存储的框架,还支持跨站点的传输。 当前FATE已在单机上成功实现与TensorFlow、PyTorch等深度学习框架的对接,将来还计划尝试分布式系统。 二、加密带来数据暴增,微众联邦学习如何抗住重压?无论是过硬的算法与安全技术实力,还是丰富的工程经验,微众****都是国内联邦学习领域的翘楚。 但推进联邦学习落地的道路并非一帆风顺。联邦学习交换加密状态下,数据体积暴增,致使它需要更高的计算和通信能力。 计算方面,传统机器学习有32-bit芯片指令支持,而联邦学习的Paillier/RSA算法依赖2048-bit甚至更长的大整数模幂、模乘等复杂运算。 传输方面,传统机器学习的参数聚合使用内网传输,而联邦学习给数据加密后体积变大30倍以上,还要经多轮传输。 (编辑:555手机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |