2022-BigContest

다각적 모델을 활용한 대출 신청 여부 예측과 고객 군집 별 서비스 메시지 제안 : 이상치 탐지, 머신러닝, 딥러닝 모델

1. 배경 & 목적

사용자 신용 정보, 대출신청 정보, 앱 로그 정보 등의 데이터를 통한 대출 신청 예측 분석
군집화를 통한 고객 군 분류 및 맞춤형 서비스 메시지 제안
평가지표: F1 Score

2. 주최/주관 & 참가 대상 & 성과

주최: 과학기술정보통신부, NIA 한국지능정보사회진흥원
주관: 신한카드, LG U+, Finda, WISENUT, 제주관광공사, CJ 올리브네트웍스, KAIT 한국정보통신진흥협회
후원: KBD 빅데이터포럼
참가 대상: 전국 대학(원)생(휴학생 포함) - 전일제 대학(원)생만 해당
성과: 2022 빅콘테스트 데이터 분석리그 퓨처스 부문 최우수상 수상

3. 대회 기간

제출마감: 2022년 10월 14일
1차 서류 심사 결과: 2022년 11월 10일
2차 PT 발표 심사 결과: 2022년 12월 9일

4. 내용

Finda 앱을 통해 대출을 신청받는 고객을 예측하는 이진 분류 문제이다. 특정 고객이 대출 신청을 하기에는 한 가지 요소로 결정되지 않으므로 데이터 탐색 및 시각화를 통해 선정된 큰 관점인 ‘고객 상황’, ‘고객 행동’, ‘대출 상품’ 에 따라 분석을 진행하였다.

또한 외부 데이터를 수집하는 과정에서도 2가지 관점을 가지고 수집하였다. 코인 가격, 금리 정보, 실업자 및 실업률, Kospi 지수 등 ‘외부 경제 상황에 대한 정보’와 소비자 심리 지수와 같은 ‘소비자 내부의 결정 요인’이 그 예이다.

이상치 처리 및 결측치 처리에서는 KNN Imputer나 RandomForest 같은 모델을 사용하여 기계적으로 처리하기도 했지만 주어진 데이터의 특성을 최대한 반영하기 위해서 정성적인 방법을 많이 사용해주었다. 피처 엔지니어링 과정에서도 Application 별/User 별/시간 별로 구분이 가능한 피처로 나누어 총 71가지 피처를 만들어냈다.

모델링은 Pycaret이라는 AutoML 라이브러리를 사용하여 다양한 모델을 실험해 보았고 그 결과 전통적인 머신러닝 모델 중 Boosting 계열 모델이 성능이 높음을 확인할 수 있었다. 데이터가 95대 5로 매우 불균형 데이터임에 따라 다양한 이상치 탐지 모델링과 Undersampling 및 Oversampling 과정을 실험해 보았다. 하지만 결론적으로는 데이터의 분포를 건드리는 것보다 모델 자체적으로 weight를 주어 target 값의 비율을 조정하는 방법이 오히려 성능을 좋은 것을 확인하였다. 따라서 LGBM, Catboost 모델의 scale_pos_weight라는 하이퍼파라미터를 조정하여 불균형 데이터를 샘플링 해주었다. 마지막으로 TabNet이라는 딥러닝 계열의 모델을 사용해 최종적으로 LGBM, Catboost, TabNet에서 학습된 결과를 취합하여 hard voting 방식의 앙상블을 해주었다.

또한 고객 별 군집화를 수행하고 서비스 메시지를 제안하는 것이 2번째 과제였는데 고객 스펙과 관련된 정보의 수치형 변수들을 사용하여 K-means Clustering을 진행하였다. 그에 따라서 총 5개의 군집을 얻을 수 있었는데, 나누어진 군집에 따라 특징이 매우 달랐다. 이에 따라 고객을 3개의 층위로 구분하여 각각의 층위에 맞는 메시지를 제안하고자 했다. 예를 들어 신규 고객의 경우 핀다의 다양한 기능들을 최대한 경험할 수 있도록 핀다의 주요 서비스를 소개할 수 있는 튜토리얼을 제공하는 아이디어를 제안했고, 앱을 사용한 경험이 있는 고객의 경우 앞서 수행한 클러스터링 결과를 활용하여 클러스터별 행동 경향에 따라서 활성 고객/비활성 고객 별로 맞춤화된 서비스 메시지를 제안했다. 특히 최대한 고객들이 사용해 보지 않은 서비스를 추천하도록 했다.

5. 프로젝트 담당 역할

SMOTE-TOMEK 방법을 사용한 불균형 데이터 샘플링
Pycaret을 사용한 AutoML / Weight를 조정한 LGBM, Catboost 모델 학습 및 최적화
K-Means Clustering, Self-Organizing Map 등을 활용한 군집화
Feature Importance, SHAP 등의 메소드를 활용한 모델 설명력 평가

6. Process

ch.1 EDA

Target 값 분석
고객 상황 별 분석
고객 행동 별 분석
대출 상품 별 분석

ch.2 Data Preparation

외부 데이터 수집
- 외부 경제 상황에 대한 정보
- 소비자 내부의 결정 요인

ch.3 Preprocessing

이상치 처리
결측치 처리
피처 엔지니어링
- Application 별
- User 별
- 시간 별

ch.4 Modeling

데이터 검증 방법 설정
불균형 데이터 샘플링
이상치 탐지 모델링
- Isolation Forest
- K-Nearest Neighbor
- Minimum Covariance Determinant
머신러닝 모델링
- Pycaret
- LGBM
- Catboost
딥러닝 모델링
- TabNet

ch.5 Ensemble

Hard Voting
- LGBM
- Catboost
- TabNet

ch.6 Clustering & Service Message

K-means Clustering

7. 참고자료

2022 빅콘테스트 발표 자료
유튜브 발표 영상
유뷰브 인터뷰 영상

8. 증빙자료

빅콘테스트 홈페이지

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
0. Data Structure.ipynb		0. Data Structure.ipynb
1. External Data Collection.ipynb		1. External Data Collection.ipynb
10. Model Explanation.ipynb		10. Model Explanation.ipynb
11.0. User Spec Cluster Kmeans Cluster5.ipynb		11.0. User Spec Cluster Kmeans Cluster5.ipynb
11.1. Log Path Pivoting And Ngrams.ipynb		11.1. Log Path Pivoting And Ngrams.ipynb
11.2 User Cluster Analysis.ipynb		11.2 User Cluster Analysis.ipynb
2. Extract Applied Or Not.ipynb		2. Extract Applied Or Not.ipynb
3. Merge Loan Log.ipynb		3. Merge Loan Log.ipynb
4. EDA.ipynb		4. EDA.ipynb
5.0. Original Data Cleansing.ipynb		5.0. Original Data Cleansing.ipynb
5.1. Clean Data & External Data Merge.ipynb		5.1. Clean Data & External Data Merge.ipynb
5.10. Log Feature Data Cleansing.ipynb		5.10. Log Feature Data Cleansing.ipynb
5.11. Feature Generation1 & Cleansing2.ipynb		5.11. Feature Generation1 & Cleansing2.ipynb
5.12. Data Split.ipynb		5.12. Data Split.ipynb
5.13. Feature Generation2.ipynb		5.13. Feature Generation2.ipynb
5.14. Merge Data & Cleansing3.ipynb		5.14. Merge Data & Cleansing3.ipynb
5.2. Data Selection.ipynb		5.2. Data Selection.ipynb
5.3. Duration Generation.ipynb		5.3. Duration Generation.ipynb
5.4. Visit Count Generation.ipynb		5.4. Visit Count Generation.ipynb
5.5. Count Value Generation.ipynb		5.5. Count Value Generation.ipynb
5.6. Log Extract App Path.ipynb		5.6. Log Extract App Path.ipynb
5.7. Log Feature Merge.ipynb		5.7. Log Feature Merge.ipynb
5.8. Path Embedding Segmentation.ipynb		5.8. Path Embedding Segmentation.ipynb
5.9. Merge Path Clustering.ipynb		5.9. Merge Path Clustering.ipynb
6.0. Feature Generation1 & Cleansing2 Cluster.ipynb		6.0. Feature Generation1 & Cleansing2 Cluster.ipynb
6.1. Data Split Cluster.ipynb		6.1. Data Split Cluster.ipynb
6.2. Feature Generation2 Cluster.ipynb		6.2. Feature Generation2 Cluster.ipynb
6.3. Merge Data & Cleansing3 Cluster.ipynb		6.3. Merge Data & Cleansing3 Cluster.ipynb
6.4. Undersampling+SMOTE.ipynb		6.4. Undersampling+SMOTE.ipynb
6.5. UnderSampling Train Test Split.ipynb		6.5. UnderSampling Train Test Split.ipynb
6.6. Oversampling SMOTE.ipynb		6.6. Oversampling SMOTE.ipynb
7.0. Isolation Forest.ipynb		7.0. Isolation Forest.ipynb
7.1. Pycaret Anomaly.ipynb		7.1. Pycaret Anomaly.ipynb
7.2. ML Modeling.ipynb		7.2. ML Modeling.ipynb
7.3. Sampling Pycaret ETRF.ipynb		7.3. Sampling Pycaret ETRF.ipynb
7.4. Tabnet Gpu Oversample.ipynb		7.4. Tabnet Gpu Oversample.ipynb
7.5. Tabnet No Sampling.ipynb		7.5. Tabnet No Sampling.ipynb
8.0. TabNet Predict No Sample.ipynb		8.0. TabNet Predict No Sample.ipynb
8.1. TabNet Predict Sampling.ipynb		8.1. TabNet Predict Sampling.ipynb
9. Ensemble.ipynb		9. Ensemble.ipynb
README.md		README.md
롱Loan 최종 발표 자료.pdf		롱Loan 최종 발표 자료.pdf

maj34/2022-BigContest

Folders and files

Latest commit

History

Repository files navigation

2022-BigContest

1. 배경 & 목적

2. 주최/주관 & 참가 대상 & 성과

3. 대회 기간

4. 내용

5. 프로젝트 담당 역할

6. Process

ch.1 EDA

ch.2 Data Preparation

ch.3 Preprocessing

ch.4 Modeling

ch.5 Ensemble

ch.6 Clustering & Service Message

7. 참고자료

8. 증빙자료

About

Topics

Resources

Stars

Watchers

Forks

Languages