기계 학습의 분류: 소개
분류는 주어진 데이터 포인트의 클래스를 예측하는 프로세스입니다. 클래스는 대상, 레이블 또는 범주라고도 합니다. 분류 예측 모델링은 입력 변수(X)에서 이산 출력 변수(y)로의 매핑 함수(f)를 근사화하는 작업입니다.
예를 들어 이메일 서비스 제공업체의 스팸 감지는 분류 문제로 식별될 수 있습니다. "스팸"과 "스팸 아님"으로 표시된 클래스가 두 개뿐이므로 이는 이진 분류입니다. 분류자는 특정 입력 변수가 클래스와 어떻게 관련되는지 이해하기 위해 일부 훈련 데이터를 활용합니다. 이 경우 알려진 스팸 이메일과 스팸이 아닌 이메일을 훈련 데이터로 사용해야 합니다. 분류기가 정확하게 훈련되면 알 수 없는 이메일을 탐지하는 데 사용할 수 있습니다.
분류는 대상에도 입력 데이터가 제공되는 지도 학습 범주에 속합니다. 신용승인, 의료진단, 타겟마케팅 등 다양한 업무에 분류를 적용할 수 있습니다.
분류에는 게으른 학습자와 열정적인 학습자라는 두 가지 유형의 학습자가 있습니다.
게으른 학습자는 훈련 데이터를 저장하고 테스트 데이터가 나타날 때까지 기다립니다. 이 경우 저장된 학습 데이터 중 가장 관련성이 높은 데이터를 기준으로 분류가 수행됩니다. 열정적인 학습자에 비해 게으른 학습자는 훈련 시간이 적지만 예측에 더 많은 시간을 소비합니다.
예:K-최근접 이웃 및 사례 기반 추론.
열정적인 학습자는 분류를 위한 데이터를 받기 전에 주어진 훈련 데이터를 기반으로 분류 모델을 구성합니다. 전체 인스턴스 공간을 포괄하는 단일 가설을 커밋할 수 있어야 합니다. 이 때문에 열정적인 학습자는 훈련에 오랜 시간이 걸리고 예측에는 시간이 덜 걸립니다.
예:의사결정 트리, 나이브 베이즈 및 인공 신경망.
기계 학습에 대한 추가 정보: 모든 초보자가 알아야 할 상위 10가지 기계 학습 알고리즘
선택할 수 있는 분류 알고리즘이 많이 있습니다. 올바른 것을 선택하는 것은 사용 가능한 데이터 세트의 애플리케이션과 특성에 따라 달라집니다. 예를 들어 클래스가 선형으로 분리 가능한 경우 로지스틱 회귀 및 Fisher의 선형 판별과 같은 선형 분류기가 정교한 모델보다 성능이 뛰어나고 그 반대의 경우도 마찬가지입니다.
의사결정 트리는 트리 구조 형태로 분류 또는 회귀 모델을 구축합니다. 이는 분류를 위해 상호 배타적이고 철저한 "if-then" 규칙 세트를 활용합니다. 규칙은 훈련 데이터를 하나씩 사용하여 순차적으로 학습됩니다. 규칙이 학습될 때마다 규칙에 포함된 튜플이 제거됩니다. 이 프로세스는 종료 조건을 충족할 때까지 계속됩니다.
트리는 하향식, 재귀적, 분할 및 정복 방식으로 구성됩니다. 모든 속성은 범주형이어야 합니다. 그렇지 않으면 미리 구분해야 합니다. 트리 상단에 있는 속성은 분류에 더 많은 영향을 미치며 정보 획득 개념을 사용하여 식별됩니다.
의사결정 트리는 너무 많은 분기를 생성하여 쉽게 과잉 맞춤될 수 있으며 노이즈나 이상치로 인한 이상치를 반영할 수 있습니다. 과적합된 모델은 훈련 데이터에서는 인상적인 성능을 제공하더라도 보이지 않는 데이터에서는 매우 낮은 성능을 나타냅니다. 나무 건설을 조기에 중단시키는 사전 가지치기나 완전히 자란 나무에서 가지를 제거하는 사후 가지치기를 통해 이를 방지할 수 있습니다.
Naive Bayes는 속성이 조건부 독립이라는 가정 하에 Bayes 정리에서 영감을 얻은 확률적 분류자입니다.
위의 가정을 베이즈 정리에 적용하여 최대 P(Ci|X)인 최대 사후값을 도출하여 분류를 수행합니다. 이 가정은 클래스 분포만 계산하여 계산 비용을 크게 줄입니다. 속성이 종속적이므로 대부분의 경우 가정이 유효하지 않더라도 놀랍게도 Naive Bayes는 인상적인 성능을 발휘할 수 있습니다.
Naive Bayes는 구현하기가 간단한 알고리즘이며 대부분의 경우 좋은 결과를 얻을 수 있습니다. 다른 유형의 분류기가 사용하는 값비싼 반복 근사보다는 선형 시간이 걸리기 때문에 더 큰 데이터 세트로 쉽게 확장할 수 있습니다.