데이터 전처리
-
데이터 전처리머신러닝 2020. 7. 23. 17:34
데이터 전처리 Data Preprocessing 어떤 데이터를 입력으로 가지느냐에 따라 결과가 크게 달라짐 (Garbage In, Garbage Out) 사이킷런 ML 알고리즘을 적용하기 전 처리할 기본 사항 결손값, NaN, Null 허용 안됨 문자열값 허용 안됨 결손값, NaN, Null 처리 결손값등이 얼마 되지 않는 다면 피처의 평균값 등으로 간단히 처리 결손값등이 대분이라면 해당 피처 Drop 결손값등이 일정 수준 이상되는 경우 일정 수준의 기준이 없어 선택이 어려움 중요도가 높은 피처이고 단순히 평균값등로 대체할 경우 예측 왜곡이 심할 수 있다면 상세히 검토해 더 정밀한 대체 값을 선정 해야 함 문자열값 처리 모든 문자열은 인코딩돼서 숫자로 변환 문자열 피처는 카테고리형 피처와 텍스트 피처를 ..