본문으로 바로가기

 

차례

1. 모델학습

2. 평가


 

'데이터 모델링'은 앞서 다듬어 놓은 재료들에 대한 레시피입니다.

아무리 전처리가 잘 된 데이터라도 레시피가 엉망이라면 불필요한 시간과 비용만 낭비하게 됩니다. 

다행히도 빅데이터분석기사 시험에는 만능레시피가 존재합니다.   

바로 '랜덤포레스트(RandomForest)'입니다.

분류문제는 RandomForestClassifier, 회귀문제는 RandomForestRegressor를 사용합니다. 

 

우리는 이전 포스팅에서 데이터 불러오기부터 데이터 전처리까지 마쳤습니다.

우리의 목표는 평가용 데이터에 있는 2,482명 고객의 성별(*남자일 확률)을 예측하는 것입니다.

 

[빅분기] 라이브러리/모듈 불러오기

모듈 불러오기 라이브러리/모듈을 쉽게 설명하면 '종합선물세트'와 같습니다. 우리가 과자 하나하나를 사는게 번거롭고 귀찮기 때문에, 누군가 우리를 위해 미리 만들어 놓은 선물입니다. 가장

bohemihan.tistory.com

 

[빅분기] 데이터 불러오기

차례 1. 데이터 불러오기 2. 인덱스(custid)와 변수(features) 분리 3. 데이터 구조 확인하기 1. 데이터 불러오기 데이터를 불러오는 방법은 두 가지입니다. 1. 링크 호출(url) 2. 컴퓨터에 저장된 데이터

bohemihan.tistory.com

 

[빅분기] 데이터전처리 핵심요약정리

차례 1. 불필요한 칼럼 제거하기 (drop) 2. 문자열 값을 숫자형 카테고리로 변환 (LabelEncoder) 3. 결측치 바꾸기 (fillna) 4. 데이터셋 분할 (train_test_split) 데이터전처리는 맛있는 요리를 만들기 위한 '재.

bohemihan.tistory.com

 

 

1. 모델학습

 

ⓒ IT위키

 

여러 개의 결정 트리들을 임의적으로 학습하는 방식의 앙상블(ensemble)로 여러가지 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법입니다. 

- 의사결정 나무: 여러가지 요소를 기준으로 갈라지는 가지를 트리형태로 구성하여 분석하는 기법

- 앙상블 학습: 주어진 데이터를 여러 모델로 학습하고 종합하여 정확도를 높이는 기법

- 배깅(Bagging): 같은 알고리즘으로 여러 개의 분류기를 만들어서 결합하는 앙상블 학습 기법

 

# Model

from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier()
rfc.fit(X1, y1)

①. Scikit-learn에서 제공하는 앙상블 모델 중 랜덤포레스트분류를 사용합니다. 

②. RandomForestClassifier 함수를 변수(rfc)로 놓습니다.

③. X1, y1에 fit함수를 적용하여 RandomForestClassifier를 훈련시킵니다. 

 

 

2. 평가

 

 

남자일 확률을 구해야하므로 predict_proba함수를 사용합니다.

predict_proba 함수는 각 샘플에 대해 어느 클래스에 속할 확률을 0에서 1 사이의 값으로 돌려줍니다

참고로 predict 함수는  그 클래스에 속하는지 속하지 않는지를 나타내는 1 또는 0으로 구성된 벡터를 반환합니다.

 

pred = rfc.predict_proba(X2)
pred

①. 테스트셋(X2)에 predict_proba 함수를 적용합니다.

②. 결과에 따르면 첫번째 행(custid)경우 여자(0)일 확률은 78%, 남자(1)일 확률은 22%입니다. 

③. 우리가 구해야 하는 값는 남자일 확률이므로 인덱싱을 이용하여 아래와 같이 선택합니다. 

 

pred = rfc.predict_proba(X2)[:, 1]
pred

 

 


 

#빅데이터분석기사후기 #빅데이터분석기사실기 #빅데이터분석기사필기pdf #빅데이터분석기사합격률 #빅데이터분석기사쓸모 #빅데이터분석기사2022일정 #빅데이터분석기사전망 #빅데이터분석기사실기 #빅데이터분석기사실기파이썬 #빅데이터분석기사실기파이썬 #빅데이터분석기사실기문제 #빅데이터분석기사실기합격률 #빅데이터분석기사실기준비 #빅데이터분석기사필기기출문제 #빅데이터분석기사필기복원 #빅분기기출 #빅분기정리 #빅분기난이도 #빅분기필기복원