본문으로 바로가기

 

차례

1. 점수측정

2. 제출

 

 


 

드디어 마지막 단계입니다.

우리는 데이터 불러오기부터 데이터 전처리, 데이터모델링까지 마쳤습니다.

이제 우리가 만든 데이터 모델의 성능을 측정하고 제출만 하면 시험은 종료됩니다.

 

 

[빅분기] 라이브러리/모듈 불러오기

모듈 불러오기 라이브러리/모듈을 쉽게 설명하면 '종합선물세트'와 같습니다. 우리가 과자 하나하나를 사는게 번거롭고 귀찮기 때문에, 누군가 우리를 위해 미리 만들어 놓은 선물입니다. 가장

bohemihan.tistory.com

 

[빅분기] 데이터 불러오기

차례 1. 데이터 불러오기 2. 인덱스(custid)와 변수(features) 분리 3. 데이터 구조 확인하기 1. 데이터 불러오기 데이터를 불러오는 방법은 두 가지입니다. 1. 링크 호출(url) 2. 컴퓨터에 저장된 데이터

bohemihan.tistory.com

 

[빅분기] 데이터전처리 핵심요약정리

차례 1. 불필요한 칼럼 제거하기 (drop) 2. 문자열 값을 숫자형 카테고리로 변환 (LabelEncoder) 3. 결측치 바꾸기 (fillna) 4. 데이터셋 분할 (train_test_split) 데이터전처리는 맛있는 요리를 만들기 위한 '재.

bohemihan.tistory.com

 

 

[빅분기] 데이터 모델링 '만능레시피 - 랜덤포레스트'

차례 1. 모델학습 2. 평가 '데이터 모델링'은 앞서 다듬어 놓은 재료들에 대한 레시피입니다. 아무리 전처리가 잘 된 데이터라도 레시피가 엉망이라면 불필요한 시간과 비용만 낭비하게 됩니다.

bohemihan.tistory.com

 

 

 

1. 점수 측정

 

ⓒ scikit-learn

 

점수를 측정하는 방법은 여러가지입니다.

문제에서는 roc_auc_score를 통해 점수를 측정한다고 규정하였습니다.

점수를 측정한는 함수는 보통 sklearn.metrics에 모여있습니다.

 

ROC AUC Curve 

ROC(receiver operating characteristic curve)는 민감도(True Positive Rate)와 특이도(False Positive Rate)의 관계를 표현한 곡선입니다. 민감도와 특이도는 반비례 관계에 있습니다.

AUC(Area Under the ROC Curve)는 ROC 밑에 있는 영역을 의미합니다. 

결론적으로 roc_auc_score 값이 1에 가까울 수록 좋은 모델입니다.

# Score
from sklearn.metrics import roc_auc_score
print(roc_auc_score(y2, pred))

①. Scikit-learn에서 제공하는 측정방법 중 roc_auc_score를 사용합니다.

②. roc_auc_score(실제값, 예측값)

 

 

 

2. 제출

 

문제에서 제시한 제출형식은 2차원의 데이터프레임입니다

 

# submission 

result_pred = rfc.predict_proba(X_test)[:,1]
result_pred = pd.DataFrame(result_pred)
result = pd.concat([X_test_id, result_pred], axis=1)
result.columns = ['cust_id', 'gender']
print(result)

 

①. rfc.predict_proba(X_test)[: ,1] 슬라이싱을 통해 2번째 칼럼만 추출합니다. 1차원 ndarray입니다.

 

②. 문제에서는 2차원을 요구하였기에 데이터프레임으로 바꿔줍니다.

 

③. 판다스 concat함수를 이용하여 데이터프레임을 합칩니다. 

 

④. 데이터프레임 result의 칼럼명을 설정합니다.

 

문제에서 csv파일로 생성 후 제출을 요구하였으므로, to_csv함수를 이용하여 csv파일을 생성합니다.

데이터프레임명.to_csv(ⓐ, ⓑ)

ⓐ csv 파일저장명 

ⓑ index 설정 : 행의 인덱스를 표시하지 않길 원하는 경우 'False' 

y_test_path = '123456.csv'
result.to_csv(y_test_path, index=False)

df = pd.read_csv(y_test_path)
print(df)

 


 

#빅데이터분석기사후기 #빅데이터분석기사실기 #빅데이터분석기사필기pdf #빅데이터분석기사합격률 #빅데이터분석기사쓸모 #빅데이터분석기사2022일정 #빅데이터분석기사전망 #빅데이터분석기사실기 #빅데이터분석기사실기파이썬 #빅데이터분석기사실기파이썬 #빅데이터분석기사실기문제 #빅데이터분석기사실기합격률 #빅데이터분석기사실기준비 #빅데이터분석기사필기기출문제 #빅데이터분석기사필기복원 #빅분기기출 #빅분기정리 #빅분기난이도 #빅분기필기복원