본문 바로가기
ML Overview

머신러닝(ML)의 종류

by EasyGPT 2016. 1. 29.
반응형

ML의 기법과 그리고 관련된 알고리즘의 종류는 수없이 많습니다.

여기서는 데이터과학자들이 현재 많이 사용되고 있는 핵심기법 만을 설명하고자 합니다.


데이터과학자들은 ML 기법을

 

#지도학습 (supervised learning)

 

 

#비지도학습 (unsupervised learning)

 

으로 구분합니다

 

 

지도학습(SL)은 사용가능한 데이터가 레이블이 지정된 예제로 구성되는 문제에 대한 기계학습 패러다임입니다.

즉, 각 데이터포인트에는 기능(공변량) 및 관련 레이블이 포함됩니다.

지도학습 알고리즘의 목표는 예제 입력-출력 쌍을 기반으로 기능 벡터(입력)를 레이블(출력)에 매핑하는 기능을 학습하는 것입니다.[1]

일련의 훈련 예제로 구성된 레이블이 지정된 훈련 데이터에서 함수를 추론합니다.[2]

지도학습에서 각 예제는 입력 개체(일반적으로 벡터)와 원하는 출력 값(감독 신호라고도 함)으로 구성된 쌍입니다.

지도학습 알고리즘은 교육데이터를 분석하고 새로운 예제를 매핑하는 데 사용할 수 있는 추론된 함수를 생성합니다.

최적의 시나리오에서는 알고리즘이 보이지 않는 인스턴스에 대한 클래스 레이블을 올바르게 결정할 수 있습니다.

이를 위해서는 학습 알고리즘이 "합리적" 방식으로 훈련데이터에서 보이지 않는 상황으로 일반화해야 합니다(유도 편향 참조).

알고리즘의 이러한 통계적 품질은 소위 일반화 오류를 통해 측정됩니다.

Supervised learning (SL) is a machine learning paradigm for problems where the available data consists of labelled examples, meaning that each data point contains features (covariates) and an associated label. The goal of supervised learning algorithms is learning a function that maps feature vectors (inputs) to labels (output), based on example input-output pairs.[1] It infers a function from labeled training data consisting of a set of training examples.[2] In supervised learning, each example is a pair consisting of an input object (typically a vector) and a desired output value (also called the supervisory signal). A supervised learning algorithm analyzes the training data and produces an inferred function, which can be used for mapping new examples. An optimal scenario will allow for the algorithm to correctly determine the class labels for unseen instances. This requires the learning algorithm to generalize from the training data to unseen situations in a "reasonable" way (see inductive bias). This statistical quality of an algorithm is measured through the so-called generalization error.

 

지도학습 기법에는 결과에 대한 사전 지식이 필요합니다.

예를 들어 마케팅활동과 관련된 과거 데이터를 다루는 경우, 잠재 고객이 응답했는지 여부에 따라 각 임프레션을 분류하거나 이들 고객이 소비한 금액을 확인할 수 있습니다.

이러한 경우,

지도학습 기법을 활용하면 예측과 분류를 할 수 있습니다

그러나 실제로는 이벤트의최종’ 결과를 알지 못하는 경우가 많이 있습니다

예를 들어사기  (fraud)의 경우 마케팅 이벤트가 끝나고 오랜 시간이 지나기 전까지는 거래의 사기 여부를 알 수가 없습니다

이러한 경우, 사기거래 예측을 시도하기보다 ML을 사용해서 일반적이지 않은 거래를 식별해낸 다음 추가로 조사하도록 표시하는 방법을 사용할 수 있습니다.

 

비지도 학습은 구체적 결과에 대한 사전 지식이 없지만 데이터를 통해 유의미한 지식을 얻고자 하는 경우에 사용됩니다

 

가장 널리 사용되는

지도학습 기법

은 다음과 같습니다.

 

 

1. 일반화 선형 모델(Generalized linear models, GLM)

선형회귀(linear regression)의 발전된 형태로, 다양한 가능성 분산과 연결 함수를 지원해서 분석자가 더 효과적으로 데이터를 모델링할 수 있습니다.

그리드 탐색(grid search)으로 강화된 GLM은 전통적 통계와 가장 발전된 ML의 조합입니다 

 

2. 의사결정 트리(Decision trees)

모 집단을 대상(target) 변수에 대해 동질적인 더 작은 조각으로 점진적으로 분할하는 규칙 집합을 학습하는 비지도 학습 방법 

 

3. 랜덤 포레스트(Random forests)

널리 사용되는 총체적 학습 방법으로여러 개의 의사결정 트리를 학습한 다음,

트리 전반에 걸친 평균을 구해 예측을 산출합니다.

이 평균 프로세스는 일반화가 가능한 솔루션을 제공하며 데이터의 불규칙 잡음

(random noise)을 걸러내는 효과가 있습니다.

 

4. 점진적 부스팅 머신(Gradient boosting machine, GBM)

의사결정 트리의 시퀀스 교육을 통해 예측 모델을 생성하는 방법으로연속되는 트리가 이전 트리의 예측 오류를 수정해 나갑니다.

5. 딥 러닝(Deep learning)

데이터의 고수준 패턴을 복합적인 다계층 네트워크로 모델링하는 방법.

문제를 모델링하는 가장 일반적인 방법이며, ML의 가장 어려운 문제를 해결할 잠재력을 지녔습니다.

 

 

비지도학습은 태그가 지정되지 않은 데이터에서 패턴을 학습하는 일종의 알고리즘입니다. 

목표는 사람의 중요한 학습방식인 흉내를 통해 기계가 자신의 세계를 간결하게 표현한 다음 그로부터 상상의 콘텐츠를 생성하도록 하는 것입니다.
전문가가 데이터에 태그를 지정하는 지도학습과 달리 "공" 또는 "물고기"로 태그가 지정된 비지도 방법은 패턴을 확률 밀도[1] 또는 기계의 가중치 및 활성화에 인코딩된 신경 기능 기본 설정의 조합으로 캡처하는 자기 조직화를 나타냅니다.

지도 스펙트럼의 다른 수준은 기계에 지침으로 숫자 성능 점수만 부여되는 강화 학습과 데이터의 작은 부분에 태그가 지정되는 준지도 학습입니다.

Unsupervised learning is a type of algorithm that learns patterns from untagged data. The goal is that through mimicry, which is an important mode of learning in people, the machine is forced to build a concise representation of its world and then generate imaginative content from it.

In contrast to supervised learning where data is tagged by an expert, e.g. tagged as a "ball" or "fish", unsupervised methods exhibit self-organization that captures patterns as probability densities [1] or a combination of neural feature preferences encoded in the machine's weights and activations. The other levels in the supervision spectrum are reinforcement learning where the machine is given only a numerical performance score as guidance, and semi-supervised learning where a small portion of the data is tagged.

 

 

비지도 학습의 주요 기술은 다음과 같습니다.

 

1.    클러스터링(Clustering)

개체를 다수의 메트릭스에서 상호 유사한 세그먼트 또는 클러스터로 그룹화하는 기법.

고객 세분화가 클러스터링의 실제 예 입니다.

클러스터링 알고리즘은 무척 다양한데가장 널리 사용되는 것이 k-평균(k-means) 입니다.

 

2. 비정상 탐지(Anomaly detection)

예상치 못한 이벤트 또는 결과를 식별하는 프로세스.

보안, 사기 등의 분야에서는 모든 거래를 철저하게 조사 하기란 사실 상 불가능하므로 가장 비 일반적인 거래에 체계적으로 플래그를 지정해야 합니다.

앞서 지도 학습에서 언급한 기법인 딥 러닝도 비정상 탐지에 사용할 수 있습니다.

 

3. #차원축소 (Dimension reduction)

#고려대상변수 수를 줄이는 프로세스.

조직이 더 많은 데이터를 캡처할수록 예측에 사용가능한 예측 변수(또는 특성) 수도 급격히 증가합니다..

특정 문제에 대해 가치있는 정보를 제공하는 데이터를 식별하는 것만 해도 상당한 작업입니다.

.

주성분요소 분석 (Principal components analysis, PCA)은 일련의 원시 특성을 평가해 이를 상호독립적 인덱스로 축소합니다.

일부 ML 기법이 다른 기법에 비해 지속적으로 좋은 결과를 내는 경우도 있지만,

특정 문제에 대해 어느 기법이 가장 효과적인지 사전에 판단할 수 있는 경우는 극히 드뭅니다.

따라서 대부분의 #데이터과학자 는 많은 기법을 시도한 후 최적의 모델을 선택합니다.

, 데이터과학자가 더 적은 시간에 더 많은 방법을 시도하려면 높은 성능이 필수적입니다

 

반응형

'ML Overview' 카테고리의 다른 글

머신러닝 (ML) 의 실제 적용 사례  (0) 2016.01.29

댓글