본문 바로가기
통계데이터과학과

[모델 학습] 전처리 과정과 모델 변경

by 공부하는노년 2024. 7. 11.
반응형

전처리 과정에서 데이터 필드 삭제

타깃에 영향을 주지 않을 것으로 판단된 두 항목을 제거했습니다. 갑상선 저하나 항진을 인지하는 경우는 크게 유의미하지 않을 것으로 판단했기 때문입니다. 만들어진 데이터프레임에서 다시 가공을 했습니다. 

데이터프레임에서 두 컬럼 제거

 

두 개의 피처, 즉 '갑상선저하_인지_여부'와 '갑상선항진증_인지_여부'를 drop 시켰습니다. 결과는 성공적이었습니다. 성공률이 약 1% 상승하면서 순위도 20위에서 11위로 올라섰습니다. 

 

모델 변경

모델을 Gradient Boosting으로 변경했습니다. 변경해서 적용한 코딩은 다음과 같습니다.

모델 Gradient Boostin 코딩

 

코딩 결과는 target 1% 정도의 추가 감염자가 생성됐습니다. 만들어진 정답 파일은 주어진 토큰이 바닥이 나서 올리지는 못했습니다. 적용되는 시간이 세계표준시인 것 같습니다.

파일 생성

 

결론

데이터프레임을 가공하는 것도 중요했습니다. 다중공선성이 높은 피처를 제거하므로써 설명력을 높인 것으로 보입니다. 또한 모델 변경은 타깃 설정의 변경으로 정확도가 높아진 것으로 파악됩니다.

댓글