Skip to content

j-haaaaan/dss6_regproj1-toyotacorolla

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

72 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Regression Project ; Toyota Corolla Price Prediction

Abstract

[프로젝트 목표]

  • 제시된 Toyota사의 Corolla차량의 중고차 가격 데이터(training)를 바탕으로 회귀분석을 통해 새로이 제시되는 중고차 가격(test)을 예측해 보는 것이다.

  • training data : 1019 rows, 39 columns

  • test data : 417 rows, 38 columns(price열 제외)

[프로젝트 평가]

  • 실제 가격과 예측한 가격의 차이를 Root-Mean-Squared-Error(RMSE) 를 통하여 채점한다.

Methods & Process

데이터 탐색 및 분석

  • 예측해야할 종속 변수 데이터(Price)를 위해 사용되어야 할 독립 변수 데이터들을 탐색하여 실수 값 (정량적) 변수와 카테고리 값 (정성적) 변수로 분리하였다. 이후 이 > 변수들간의 상관도 분석(상관계수 및 t,F-test 검정)을 통해 연식, 주행거리 등 약 8개의 독립 변수를 선정했다.

회귀 분석 및 평가

  • 1차 선정된 회귀식(아래)으로 Ordinary Least Squares 방식으로 성적을 도출한다.
  • 1차 선정 : 차량연식 + 주행거리 + 에어콘옵션 + 자동에어컨옵션 + CD플레이어옵션 + 중앙잠금 + 보드컴퓨터
  • R-Squared 값 0.859로 성능은 만족스러우나, 정규성(Normality) 불만족

아웃라이어 제거, 변수 변환 및 정규화

  • 실수값 변수(연식, 주행거리)의 아웃라이어를 Fox Recommendation 기준으로 제거한다. 연식/주행거리를 2차식으로 변환하고 스케일링한다. Ridge, Lasso, Elastic-Net 세 가지 방법으로 정규화 해보았지만, 성능이 나아지지 않았다.

최종 결과 도출 R-Squared 값 0.851, 정규성 0.130(Omnibus), RMSE 1508 수준

Results & discussions

  • 변수 선정 후 변수 변환 과정에서 cross validation을 통해 test data 값으로 비교했어야 했는데, train data로만 성능을 비교하는 실수를 범했다.

  • 정규화 과정에서 R-Squared 값으로 성능을 비교했어야 했는데, RMSE 결과를 바로 비교하는 실수를 범했다.

  • 다시 cv테스트를 통해 R2값을 비교해도 정규화 전 회귀분석 모델이 가장 뛰어나다(우리팀이 예측하기로는 정규화가 필요한 실수 변수가 3개밖에 없기 때문일 것 같다).

  • 캐글 컴피티션이 아니라서 성적을 비교할 대상이 없다.

Conclusion

  • 실생활에서의 대부분 데이터는 정확하고 올곧은 선형 방정식으로 풀기 어려우며, 비선형 데이터를 분석하는 과정이 쉽지 않다는 것을 체험했다. 약 1,000줄 정도의 적은 데이터였지만 더 큰 데이터 분석을 위해서는 더 많은 시간과 제약이 생길 것으로 예상된다.

About

A team project with team1(Outliers) ; toyota corolla price regression project

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published