前团队的博士同学研究特征选择,受他影响,有所关注,总结如下。
一、评分卡传统方法
IV排序、PSI稳定性。
二、sklearn框架
略。
三、其他算法
Boruta 特征选择
python实现,https://github.com/scikit-learn-contrib/boruta_py。
可以结合参考资料1详细看下,个人理解,有点类似lime可解释性算法的思路。Boruta 会将真实特征随机打乱顺序,一起去训练可以输出模型重要性的算法,如RandomForest, lightgbm,xgboost等,并标记特征重要性、进行假设检验。
附,参考资料:
1、Boruta 特征选择,https://www.jianshu.com/p/fdc8f6a94816