Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问包中具体用的分箱算法是哪一种 #97

Open
chenz1hao opened this issue Feb 14, 2023 · 14 comments
Open

请问包中具体用的分箱算法是哪一种 #97

chenz1hao opened this issue Feb 14, 2023 · 14 comments
Labels
question Further information is requested

Comments

@chenz1hao
Copy link

您好,我了解到目前的监督分箱算法包括最优分箱 卡方分箱 决策树分箱等,请问这个包中的分箱算法是用的哪一种

@ShichenXie
Copy link
Owner

卡方和决策树都有,可以通过method参数设置

@chenz1hao
Copy link
Author

卡方和决策树都有,可以通过method参数设置

请问下,最优分箱是一种具体的分箱算法吗,还是卡方 决策树都是叫做最优分箱呀?

@ShichenXie
Copy link
Owner

是的,一种单独的分箱方法。你参考一下shichen.name/scorecard右上角的slides

@banbsyip
Copy link

是的,一种单独的分箱方法。你参考一下shichen.name/scorecard右上角的slides

我在用toad卡方分箱的时候遇到连续性特征无法分箱的情况,然后这部分特征用sc卡方分箱也有这种情况,请问下,这种情况的话是需要手动分还是说这些特征本身无法太好的分箱,然后被drop掉?
image
image

@ShichenXie
Copy link
Owner

根据给定的条件如果分不出来,转woe之后根据变量特征很容易就筛掉了

@banbsyip
Copy link

banbsyip commented Mar 2, 2023

根据给定的条件如果分不出来,转woe之后根据变量特征很容易就筛掉了

我一开始觉得可能是卡方分箱对这个特征分不出箱,这个特征转woe就变成同一值,直接被IV筛选过滤掉了,也不用再去费劲的手动分箱。但是换成别的方法比如树或者等频这个特征会分出来,后期会不会全被IV值筛选过滤掉就不得而知了。我也问过组里其他做评分卡的人,她们说很少遇到过这种分不出箱的特征。所以现在我这就很疑惑

@ShichenXie
Copy link
Owner

类决策树和卡方合并分箱用的比较多,等频和等高比较少也有限制。选定一个方法之后,和确定参数之后,就可以不用纠结能不能分出来。当然你的建模样本和特征数据是基础。卡方和树随便选一个就好,我常用树分箱。

@banbsyip
Copy link

banbsyip commented Mar 2, 2023

类决策树和卡方合并分箱用的比较多,等频和等高比较少也有限制。选定一个方法之后,和确定参数之后,就可以不用纠结能不能分出来。当然你的建模样本和特征数据是基础。卡方和树随便选一个就好,我常用树分箱。

如果选择一个分箱方法,特征无法分箱,我可以默认这个特征是可以被废弃的吧?

@ShichenXie
Copy link
Owner

当然,前提是对选定的方法和参数没有问题

@banbsyip
Copy link

banbsyip commented Mar 2, 2023

还有个问题想请教下,oot数据集得到的ks照比训练集ks下降10%左右或者多一些,但是oot三四个月的数据,每个月的ks相差不多,模型可不可以使用呢?因为网上一些资料都是讲10%以上模型都下降了,不能继续使用,我用了lgb和评分卡模型对还款的合同进行预测,lgb和评分卡都有oot数据ks下降10个点的现象,但oot之间ks相差很小,而且lgb的psi更稳定。但是一个问题,lgb绝大部分数据的得分都很低,甚至70%都集中在同一低分数上,评分卡的分数分布比lgb好很多。

@ShichenXie
Copy link
Owner

是不是好坏客户定义有问题

@banbsyip
Copy link

banbsyip commented Mar 2, 2023

是不是好坏客户定义有问题

样本数据整体的正样本才千分之5,负样本下采样以后正样本比例5%+,主要是高账龄合同还款表现本身就很差

@ShichenXie
Copy link
Owner

表现期多长时间

@banbsyip
Copy link

banbsyip commented Mar 2, 2023

表现期多长时间

训练数据的后三个月,每个月的数据做一次验证

@ShichenXie ShichenXie added the question Further information is requested label May 22, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

3 participants