May06, 2026

联邦学习

一种隐私保护的机器学习范式，能够在不集中化数据的情况下实现协作模型训练。

定义

联邦学习是一种去中心化的机器学习技术，其中多个客户端（如设备、服务器或组织）在保持数据本地存储的同时联合训练共享模型。与将原始数据集传输到中央服务器不同，每个参与者在其本地数据上训练模型，并仅发送模型更新（如梯度或参数）进行聚合。此过程生成的全局模型能够从多样化的数据源中受益，而无需暴露敏感信息。它广泛应用于数据隐私、法规合规性或分布式数据所有权至关重要的场景中。

优点

通过确保原始数据始终留在本地环境来增强数据隐私
降低数据泄露风险并支持法规合规性
利用多样化的现实数据集，构建更稳健和泛化的模型
减少分布式系统中的数据传输成本和带宽使用
与边缘计算和设备端AI部署高度契合

缺点

需要协调多个分布式节点的复杂系统设计
性能可能受异构或非独立同分布数据分布的影响
频繁模型更新交换期间的通信开销
易受模型污染等对抗攻击
相比集中式训练系统更难调试和监控

应用场景

使用分布式行为数据训练解决CAPTCHA或检测机器人的模型，而无需暴露用户活动
从用户输入中学习的移动键盘预测系统，同时保护隐私
在不共享患者记录的情况下跨医院训练医疗AI模型
金融领域的欺诈检测系统，机构间协作而无需交换敏感数据
使用去中心化信号适应反机器人机制的网络爬虫和自动化系统