차례
1. 점수측정
2. 제출
드디어 마지막 단계입니다.
우리는 데이터 불러오기부터 데이터 전처리, 데이터모델링까지 마쳤습니다.
이제 우리가 만든 데이터 모델의 성능을 측정하고 제출만 하면 시험은 종료됩니다.
1. 점수 측정
점수를 측정하는 방법은 여러가지입니다.
문제에서는 roc_auc_score를 통해 점수를 측정한다고 규정하였습니다.
점수를 측정한는 함수는 보통 sklearn.metrics에 모여있습니다.
ROC AUC Curve
ROC(receiver operating characteristic curve)는 민감도(True Positive Rate)와 특이도(False Positive Rate)의 관계를 표현한 곡선입니다. 민감도와 특이도는 반비례 관계에 있습니다.
AUC(Area Under the ROC Curve)는 ROC 밑에 있는 영역을 의미합니다.
결론적으로 roc_auc_score 값이 1에 가까울 수록 좋은 모델입니다.
# Score
from sklearn.metrics import roc_auc_score
print(roc_auc_score(y2, pred))
①. Scikit-learn에서 제공하는 측정방법 중 roc_auc_score를 사용합니다.
②. roc_auc_score(실제값, 예측값)
2. 제출
문제에서 제시한 제출형식은 2차원의 데이터프레임입니다
# submission
result_pred = rfc.predict_proba(X_test)[:,1]
result_pred = pd.DataFrame(result_pred)
result = pd.concat([X_test_id, result_pred], axis=1)
result.columns = ['cust_id', 'gender']
print(result)
①. rfc.predict_proba(X_test)[: ,1] 슬라이싱을 통해 2번째 칼럼만 추출합니다. 1차원 ndarray입니다.
②. 문제에서는 2차원을 요구하였기에 데이터프레임으로 바꿔줍니다.
③. 판다스 concat함수를 이용하여 데이터프레임을 합칩니다.
④. 데이터프레임 result의 칼럼명을 설정합니다.
문제에서 csv파일로 생성 후 제출을 요구하였으므로, to_csv함수를 이용하여 csv파일을 생성합니다.
데이터프레임명.to_csv(ⓐ, ⓑ)
ⓐ csv 파일저장명
ⓑ index 설정 : 행의 인덱스를 표시하지 않길 원하는 경우 'False'
y_test_path = '123456.csv'
result.to_csv(y_test_path, index=False)
df = pd.read_csv(y_test_path)
print(df)
#빅데이터분석기사후기 #빅데이터분석기사실기 #빅데이터분석기사필기pdf #빅데이터분석기사합격률 #빅데이터분석기사쓸모 #빅데이터분석기사2022일정 #빅데이터분석기사전망 #빅데이터분석기사실기 #빅데이터분석기사실기파이썬 #빅데이터분석기사실기파이썬 #빅데이터분석기사실기문제 #빅데이터분석기사실기합격률 #빅데이터분석기사실기준비 #빅데이터분석기사필기기출문제 #빅데이터분석기사필기복원 #빅분기기출 #빅분기정리 #빅분기난이도 #빅분기필기복원
'Learning > 빅데이터 분석기사' 카테고리의 다른 글
[빅분기] 데이터 모델링 '만능레시피 - 랜덤포레스트' (0) | 2022.06.08 |
---|---|
[빅분기] 데이터전처리 핵심요약정리 (0) | 2022.06.07 |
[빅분기] 데이터 불러오기 (0) | 2022.06.06 |
[빅분기] 라이브러리/모듈 불러오기 (0) | 2022.06.06 |
'빅데이터분석기사 실기 제2유형' 이것만이라도 알고가자! (0) | 2022.06.06 |