摘要:
大数据正以前所未有的方式影响并改变着人们的工作和生活,为当今社会带来了更多的机遇和挑战。一方面大数据可以帮助人们更好地探索和理解数据,特别是当数据包含多种来源存在异质性问题时,而另一方面巨大的样本容量或超高的变量维度使得直接计算变得不再可能,于是如何有效地抽取一个合适的计算样本便成为值得深刻思考的问题。本文借鉴Leverage重要性抽样的思想,提出了两种稳健的改进抽样算法,不仅有效地抽取了代表性高的计算样本进行回归估计,还规避了方差大和异质性导致协方差矩阵估计不准的问题。模拟数据的分析显示,相比于Ma (2015)的方法,本文提出的方法具有更为优良的估计结果。这些方法适用于政府公共事务的统计工作、大型的问卷调查分析、微观经济数据建模等方面。