大数据下Leverage重要性抽样方法的稳健改进

doi:10.19343/j.cnki.11-1302/c.2016.08.013

统计研究

大数据下Leverage重要性抽样方法的稳健改进

秦磊等

出版日期:2016-08-15 发布日期:2016-08-11

Robust Modification of Leverage Importance Sampling for Big Data

Qin Lei et al.

Online:2016-08-15 Published:2016-08-11

摘要/Abstract

摘要：

大数据正以前所未有的方式影响并改变着人们的工作和生活，为当今社会带来了更多的机遇和挑战。一方面大数据可以帮助人们更好地探索和理解数据，特别是当数据包含多种来源存在异质性问题时，而另一方面巨大的样本容量或超高的变量维度使得直接计算变得不再可能，于是如何有效地抽取一个合适的计算样本便成为值得深刻思考的问题。本文借鉴Leverage重要性抽样的思想，提出了两种稳健的改进抽样算法，不仅有效地抽取了代表性高的计算样本进行回归估计，还规避了方差大和异质性导致协方差矩阵估计不准的问题。模拟数据的分析显示，相比于Ma (2015)的方法，本文提出的方法具有更为优良的估计结果。这些方法适用于政府公共事务的统计工作、大型的问卷调查分析、微观经济数据建模等方面。

关键词: 大数据, 重要性抽样, 异质性问题, 协方差矩阵

Abstract:

Big data, due to the massive sample size or ultra high dimensionality, makes classical computation impossible. Thus how to obtain an effective sample is becoming crucial. This paper introduced two robust modification sampling methods based on the idea of Leverage importance sampling. The proposed approaches can conduct sampling efficiently and have significant improvement on estimation of covariance matrix. Simulation results indicate that our proposed methods perform better compared with Ma (2015).

Key words: Big Data, Importance Sampling, Heterogeneity, Covariance Matrix

秦磊等. 大数据下Leverage重要性抽样方法的稳健改进[J]. 统计研究, 2016, 33(8): 101-105.

Qin Lei et al.. Robust Modification of Leverage Importance Sampling for Big Data[J]. Statistical Research, 2016, 33(8): 101-105.

[1]	雷泽坤等. 基于电商平台大数据的特征价格指数研究[J]. 统计研究, 2020, 37(8): 22-34.
[2]	宋鹏等. 稳健高维协方差矩阵估计及其投资组合应用——基于中心正则化算法[J]. 统计研究, 2020, 37(7): 116-128.
[3]	秦磊等. 大规模数据下基于充分降维的Leverage重要性抽样方法[J]. 统计研究, 2020, 37(3): 114-128.
[4]	刘展潘莹丽. 大数据背景下网络调查样本的建模推断问题研究——以广义Boosted模型的倾向得分推断为例[J]. 统计研究, 2019, 36(9): 93-.
[5]	黄恒君. 政府统计生产体系中的大数据融入探讨——基于数据源与数据质量的分析[J]. 统计研究, 2019, 36(7): 3-12.
[6]	鲁永刚张凯. 地理距离、方言文化与劳动力空间流动 [J]. 统计研究, 2019, 36(3): 88-99.
[7]	刘华军雷名雨. 交通拥堵与雾霾污染的因果关系——基于收敛交叉映射技术的经验研究[J]. 统计研究, 2019, 36(10): 43-57.
[8]	陈光慧刘建平. 构建新时代现代化统计调查体系的问题研究[J]. 统计研究, 2018, 35(6): 11-17.
[9]	胡英. 关于人口统计调查方法体系存在的问题和改革设想[J]. 统计研究, 2018, 35(4): 94-103.
[10]	种照辉覃成林叶信岳. 城市群经济网络与经济增长——基于大数据与网络分析方法的研究[J]. 统计研究, 2018, 35(1): 13-21.
[11]	董倩. 重复特征“R-H”交易法 ──二手房价格指数编制方法研究 [J]. 统计研究, 2017, 34(3): 118-128.
[12]	范超等. 新经济业态P2P网络借贷的风险甄别研究[J]. 统计研究, 2017, 34(2): 33-43.
[13]	唐晓彬等. 大数据背景下网络突发事件动态监测研究 [J]. 统计研究, 2017, 34(2): 44-54.
[14]	李金昌. 关于统计数据的几点认识[J]. 统计研究, 2017, 34(11): 3-14.
[15]	宋鹏胡永宏. 基于矩阵值因子模型的高维已实现协方差矩阵建模[J]. 统计研究, 2017, 34(11): 109-117.

大数据下Leverage重要性抽样方法的稳健改进

Robust Modification of Leverage Importance Sampling for Big Data

赞

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

Metrics

本文评价

推荐阅读 10