반응형
전처리 과정에서 데이터 필드 삭제
타깃에 영향을 주지 않을 것으로 판단된 두 항목을 제거했습니다. 갑상선 저하나 항진을 인지하는 경우는 크게 유의미하지 않을 것으로 판단했기 때문입니다. 만들어진 데이터프레임에서 다시 가공을 했습니다.
두 개의 피처, 즉 '갑상선저하_인지_여부'와 '갑상선항진증_인지_여부'를 drop 시켰습니다. 결과는 성공적이었습니다. 성공률이 약 1% 상승하면서 순위도 20위에서 11위로 올라섰습니다.
모델 변경
모델을 Gradient Boosting으로 변경했습니다. 변경해서 적용한 코딩은 다음과 같습니다.
코딩 결과는 target 1% 정도의 추가 감염자가 생성됐습니다. 만들어진 정답 파일은 주어진 토큰이 바닥이 나서 올리지는 못했습니다. 적용되는 시간이 세계표준시인 것 같습니다.
결론
데이터프레임을 가공하는 것도 중요했습니다. 다중공선성이 높은 피처를 제거하므로써 설명력을 높인 것으로 보입니다. 또한 모델 변경은 타깃 설정의 변경으로 정확도가 높아진 것으로 파악됩니다.
'통계데이터과학과' 카테고리의 다른 글
우리나라에서 많이 사용되는 좌표계 (1) | 2024.07.20 |
---|---|
[모델 학습] 다중공선성(Multicollinearity) (0) | 2024.07.12 |
갑상선 질환을 예측하는 AI 알고리즘 개발 (0) | 2024.07.10 |
모델을 이용한 투자, 퀀트(Quant) (0) | 2024.07.06 |
한국데이터산업진흥원(K-DATA) (0) | 2024.07.05 |
댓글