머신러닝 한 문장 요약:
분류(classification)나 정량적인 예측(quantative prediction)을 함으로써 데이터를 의사결정으로 변환해주는 도구와 기술의 집합
분류 = classification 예측 = regression
기본적으로 test data를 적용했을 때 실제 데이터와 그 예측의 오차율이 가장 적은 모델이 "좋은" 모델임.
여기서 test data는 모델에 훈련된 데이터가 아닌 다른 데이터임
test data로 모델의 오차율을 평가하기 때문에 훈련데이터에 잘 fitting됐다고 꼭 좋은 데이터는 아닐 수 있음.
과적합(overfitting): 훈련데이터에는 잘 피팅되었지만 예측 시에는 좋은 성능을 보여주지 못하는 것
테스트 데이터를 한 번만 지정해 사용한다면 전체 데이터에 좋은 모델을 만들기 어려울 수 있음 (test data에 편향이 있을 수 있기 때문 → test data에 과적합된 모델이 만들어질 수 있음)
이를 방지하기 위해 cross validation을 통해 여러 test data로 검증을 해볼 수 있다.
예를 들자면 특정 데이터 모음을 test data로 설정하고 나머지를 훈련용으로 쓴다. 모든 데이터가 한 번씩은 test data로 쓰일 때까지 이를 반복하여 검증한다.
이를 n-fold(n번 반복함) 혹은 교차검증cross validation이라고 한다.
가장 일반적으로 사용되는 경우는 두 가지인데