이어드림스쿨에서 머신러닝쪽으로 계속 커리큘럼이 이어져서
알고리즘 공부를 멈추고 머신러닝을 계속 공부하게 되었다
타이타닉을 또해보기는 지겨웠기에 다른 competition에 참가했다
내 옆자리분과 같이 시작했는데 다행히 이어드림스쿨에서 진행하는 새로운 머신러닝 프로젝트 이전에
개인 프로젝트가 끝나서 다행이었다
타이타닉을할때는 정말 다른사람 노트북을 그대로 옮겨와서 그냥 코드 이해만 하는수준으로 넘어가서 하루만에
끝났는데 이번에는 최대한 스스로 해보려고 노력했다 그래서 일주일정도 걸린것같다
아래는 내가 참가한 competition 링크다
https://www.kaggle.com/competitions/spaceship-titanic
타이타닉같은경우 핵심데이터 성별, 좌석등급, 형재자매 등등에는 결측값이 있었는데
타이타닉 우주선 같은경우는 핵심데이터에 빈칸이 뚫려있다
그래서 더어려웠던것같다
내등수는 2174등중 1751등으로 하위권이었다(하하하)
그러니 제 노트북이 필요하신분은 없겠죠? 귀찮았는데 잘되었습니다
총 3번에 걸쳐서 제출을 하였는데
첫번째 재출때는
결측값을 확실하게 매꿀수있고(타컬럼과 완벽한 상관관계)
예를들어 B컬럼의 c는 모두다 A컬럼의 a 요런식으로
그렇다면 A컬럼의 결측값이면서 B컬럼값을 c로가지면 결측치를 a로 채워넣는다
카테고리데이터의 경우(이렇게 부르는게 맞나 모르겠지만)
전체대비 데이터가 너무적은경우는 넣지않았고
데이터가 비슷한경우 예를들어 요소 숫자도 같은데 서로 상관관계도 엄청 높은 피쳐의 경우역시
넣지않았다
당연하지만 타겟컬럼과 관련이적은경우도 배제되었다
이렇게해서 1차제출을 하였고 컬럼은 6개만 사용하였다
1차제출을 하고난뒤 점수를 더 향상시킬수있을것같아서 재도전
피쳐가 부족해서였을까? 라고 생각하며
결측값을 매꿀수없으면 그냥 'NaN'으로 지정하여 제출
컬럼이 13개였나 그냥 왠만한거는 다 통과시키고 피쳐로 삼았다
디시젼트리 모델측정치가 83점이 나오길래 엄청 기대했는데 결과는 73점인가 나왔다
처음에 제출 다른파일 제출한줄알고 다시해봤으나 똑같았다
1차제출보다 점수가 낮아졌다 ㅋㅋㅋㅋㅅㅂ
그래도 2차제출하면서 로그화같은것도 써보고 뭐 나쁘진않았다
3차 제출때는 혹시 결측값을 마땅히 채울수없는것들을 'NaN'으로 둔게 문제였나 싶어서
다 최빈값으로 채웠다
4차 제출때는 결측치를 bfill과 ffill로 채우면서 최대한 같은비율로 가려고 노력했다
여전히 1차제출보다 여전히 값이 낮았지만 2차와 3차보단 높았다
그러다가 모델 제출때 디시젼 트리말고 2위인 랜덤 포레스트를 썻다는걸 알게되고 디시젼 트리로 다시 제출했는데
1차에서 4차까지 통틀어 가장 낮은값이 나왔다
결측값 채우기 별로 안중요한가...? 핵심 피쳐를 찾는게 더 중요한건가
ㅋㅋ 하 쨋든 스페이스쉽 타이타닉은 여기서 마무리 짓기로했다
꿀팁 한번 틀을 짜놓고 중간 부분 수정할때 코드가 전부 실행되는것을 막기위해
1+'1'과 같이 일부러 오류를 내주면 전체실행 시키고 유튜브좀 보고올수있다
kobert를 이용한 영화리뷰 긍정,부정 분류와 대표리뷰 뽑아내기 (0) | 2022.07.21 |
---|---|
Digit Recognizer - kaggle 컴퓨터비전 차근차근 이해해보기 (0) | 2022.07.17 |
flask활용한 머신러닝 모델 웹에 구현하기 (0) | 2022.07.07 |
PUBG Finish Placement Prediction 대회를 마치며 (0) | 2022.06.20 |
기쁘다!!! 캐글 리더보드에 이름올리기!(타이타닉) (0) | 2022.05.29 |