统计研究

• 论文 • 上一篇    下一篇

大数据下Leverage重要性抽样方法的稳健改进

秦磊等   

  • 出版日期:2016-08-15 发布日期:2016-08-11

Robust Modification of Leverage Importance Sampling for Big Data

Qin Lei et al.   

  • Online:2016-08-15 Published:2016-08-11

摘要:

大数据正以前所未有的方式影响并改变着人们的工作和生活,为当今社会带来了更多的机遇和挑战。一方面大数据可以帮助人们更好地探索和理解数据,特别是当数据包含多种来源存在异质性问题时,而另一方面巨大的样本容量或超高的变量维度使得直接计算变得不再可能,于是如何有效地抽取一个合适的计算样本便成为值得深刻思考的问题。本文借鉴Leverage重要性抽样的思想,提出了两种稳健的改进抽样算法,不仅有效地抽取了代表性高的计算样本进行回归估计,还规避了方差大和异质性导致协方差矩阵估计不准的问题。模拟数据的分析显示,相比于Ma (2015)的方法,本文提出的方法具有更为优良的估计结果。这些方法适用于政府公共事务的统计工作、大型的问卷调查分析、微观经济数据建模等方面。

关键词: 大数据, 重要性抽样, 异质性问题, 协方差矩阵

Abstract:

Big data, due to the massive sample size or ultra high dimensionality, makes classical computation impossible. Thus how to obtain an effective sample is becoming crucial. This paper introduced two robust modification sampling methods based on the idea of Leverage importance sampling. The proposed approaches can conduct sampling efficiently and have significant improvement on estimation of covariance matrix. Simulation results indicate that our proposed methods perform better compared with Ma (2015).

Key words: Big Data, Importance Sampling, Heterogeneity, Covariance Matrix