%A 郭婧璇等 %T 异质性大数据的分布式估计 %0 Journal Article %D 2020 %J 统计研究 %R 10.19343/j.cnki.11-1302/c.2020.10.009 %P 104-114 %V 37 %N 10 %U {https://tjyj.stats.gov.cn/CN/abstract/article_5396.shtml} %8 2020-10-25 %X 随着物联网技术的进步,大数据给网络带宽和计算机存储能力带来巨大挑战,传统的集中式数据处理难以实现,客观上促进了分布式统计学习的发展。在无迭代算法研究中,Zhang等(2013)证明了当数据集个数s=O(N) 时,基于局部经验风险最小化的分治(DC)简单平均估计量具有O(N-1)均方误差收敛速度,Huang和Huo(2019)在M估计框架下进一步提出分布式一步估计量,但上述方法均未考虑海量数据可能存在的异质性对分治估计效果的影响。本文在线性模型框架下提出海量异质数据的分治一步加权估计,证明了估计量的渐近性质并考虑了异质性检验问题。将本文提出的方法应用于美国医疗保险实际数据分析,结果表明该方法能更好地拟合数据的线性趋势且显著提高了计算效率。