联邦学习调研汇报
近几年来由于监管部门对于个人隐私的保护日益重视,带火了一个名词,叫做“联邦学习”。联邦学习又名联邦机器学习,联合学习,联盟学习。联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
联邦学习可以分为:纵向联邦学习、横向联邦学习以及联邦迁移学习。
纵向联邦学习适用于两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。
横向联邦学习适用于两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。
联邦迁移学习适用于两个数据集的用户与用户特征重叠都较少的情况下,我们不对数据进行切分,而可以利用迁移学习来克服数据或标签不足的情况。
不同的合作机构采用不同的联邦学习,最终实现数据不落地,模型更完善。据不完全统计,利用联邦学习之后构建的模型优化指标提升20%--30%。
背景的由来:如何在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能系统能够更加高效、准确的共同使用各自的数据,是当前人工智能发展的一个重要课题。联邦学习的诞生背景就是为解决以上问题的解决思路转向解决数据孤岛,数据实现了无边界,模型就可以获取到更加全面的数据集达到理想效果,联邦学习就在这样的思考下应运而生。
联邦学习具备以下特点:
业务价值:近几年,国内不少公司投入到联邦学习的研发中,其中最有名的有谷歌和微众银行在16年已经开始联邦学习的研究工作,并且已经进入落地实践阶段。目前,联邦学习已经在一些关键的金融领域取得了进展,比如联合反洗钱建模、联合信贷风控建模、联合权益定价建模、联合客户价值建模等。相较于其他领域,金融领域对数据的管控更为严格,对数据隐私更加重视,因此也是最需要通过技术手段解决数据孤岛问题的领域。信贷风险管理、核保风险评估等都是联邦学习比较适合的金融应用。相对于其他领域,金融应用更着力于对风险的量化。基于联邦学习的风险量化模型,能通过扩展数据维度,显著改善风险量化能力。
传统的建模方式主要包括公司自研和联合建模,其中公司自研的建模方式有很大的局限性,首先公司构建模型的数据一定是充足的,数据分析和模型构建方面要有专门的研究人员全身心投入,开发的周期比较长,现在这种建模方式在一些专门设立算法研究实验室的公司比较常见。联合建模在中小型企业中比较盛行,该建模的方式主要是弥补数据短板和建模能力互补的问题,这种方式在建模投入的人力和物力相对较少,其中联合建模中数据短板问题主要通过购买供应商的数据来进行解决,这就出现了模型的迭代优化需要源源不断的数据购买来支撑,数据的花费累加起来也是一笔不小的开销。
公司自研流程图:
联合建模流程图:
联邦学习主要分为纵向联邦学习、横向联邦学习以及联邦迁移学习。
3.2.1 纵向联邦学习
1)比如说当前有两个不同机构,一家是xx的银行B,另一家是xx的电商A。它们的用户群体很有可能包含该地的大部分居民,因此用户的交集较大。但是,由于银行记录的都是用户的收支行为与信用评级,而电商则保有用户的浏览与购买历史,因此它们的用户特征交集较小。
纵向联邦学习就是将这些不同特征在加密的状态下加以聚合,以增强模型能力的联邦学习。
“纵向联邦学习”算法就是是迁移学习的“逐步回归”,用回归来实现数据在两个机构间的互相交换,达到训练模型的目的,实现该方式主要分为三步:
3.2.2 横向联邦学习
业务相同但是分布在不同地区的两家银行A和B,它们的用户群体分别来自各自所在的地区,相互的交集很小。但是它们的业务很相似,因此记录的用户特征是相同的。此时,就可以使用横向联邦学习来构建联合模型。
用A行数据建模就够了。A行中是否逾期作为两个圆心,拿特征来“画圈圈”,就是下面示例的样子。计算出圆心的坐标之后,把坐标值给到B行就可以了。B行客户不是有特征没标签吗?根据每个样本距离两个圆心距离,分配所属的类别就可以了。
3.2.3 迁移联邦学习
有两个不同机构,一家是位于中国的银行,另一家是位于美国的电商。由于受到地域限制,这两家机构的用户群体交集很小。同时,由于机构类型的不同,二者的数据特征也只有小部分重合。在这种情况下,要想进行有效的联邦学习,就必须引入迁移学习,来解决单边数据规模小和标签样本少的问题,从而提升模型的效果。
A和B处于同一样本维度、不同特征维度时,我们可以用联邦学习;当A和B处于同一特征维度、不同样本维度时,我们就可以用迁移学习;二者的结合点则是:不同样本、不同特征维度。
微众要给一些小微企业贷款,又不知道小微企业的情况,第一个可以问询的是央行征信,比方说他过去在某个银行贷过款,信用度如何,但这种数据,它的样本往往是非常少的,所以只是去找央行的数据远远不够。
微众银行希望用到的数据是多方面的,比如工商、税务、舆情,还有各种资产的数据。但是这些数据拥有方,往往都是政府的不同部门、不同的企业。有专门的公司去帮助这些小微企业建立电子化的发票,有从专门的业务角度观察,微众银行只有用联邦学习才能说服他们来参与,否则他们担心核心资产会被泄露。
保险其实就是风险,风险和数据是分不开的,数据越多,风险越低,因此保险公司在某些程度上也想合作,因为不同的保险公司有不同的数据。有的保险公司是专门为保险公司保险的,叫做再保险公司,比方说瑞士再保险公司,是世界上最大的再保险公司,有100多年的历史,这些公司在过去因为数据割裂,没有办法合作的。现在就在用联邦学习,而且取得了非常好的效果。
微众银行有不同的摄像头,每个摄像头都覆盖一个区域,这个地方的数据是公司的核心资产,不愿意和别的公司去分享,但是又希望利用到别的公司的数据,来增高自己的准确度,这个时候就可以用到联邦学习,叫视觉联邦,已经落地实施。每天深圳的建筑工地用来探测危险,影响施工的一些现象,比方说明火抽烟和不戴安全帽的现象。
(1)联邦学习中的加密和解密的方式;
(2)联邦学习中的第三方协作者的作用和职责;
(3)联邦学习的多方机构训练当中出现其中一方中断合作,后续应该工作怎么安排?
(4)模型构建完成之后,模型所需的其他的数据来源应该怎么合作?
(5)联邦学习中的最终版的模型所有权的划分。
本文发布于:2024-01-29 15:49:05,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170651454816366.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |