摘要: 以UCI数据库为研究样本,分析logistic模型对不同程度非平衡数据的敏感性。研究表明,(1)数据非平衡程度越高,logistic回归对稀有类的识别能力越差。(2)相对于其他修正方法,OSS方法的改进效果不显著且不稳定;相对于复杂抽样,简单抽样修正结果更优。(3)AUC值不适宜于非平衡数据条件下的模型选择,因为在非平衡数据条件下,它既不能有效地区分四种修正方法之优劣,而且修正前后的差异亦不能辩。
魏瑾瑞 吕晓云. Logistic模型对非平衡数据的敏感性:测度、修正与比较[J]. 统计研究, 2016, 33(2): 79-85.
Wei Jinrui & Lv Xiaoyun. The Sensitivity of Logistic Model to Unbalanced Data:Measurement, Correction and Comparison[J]. Statistical Research, 2016, 33(2): 79-85.