차례
1. 데이터 불러오기
2. 인덱스(custid)와 변수(features) 분리
3. 데이터 구조 확인하기
1. 데이터 불러오기
데이터를 불러오는 방법은 두 가지입니다.
1. 링크 호출(url)
2. 컴퓨터에 저장된 데이터 불러오기
데이터 불러오기에 앞서 먼저 라이브러리/모듈을 호출합니다.
# 모듈 불러오기
import pandas as pd
import numpy as np
import sklearn
링크(url)를 통한 호출
# 링크(url)를 통한 호출
trainData = 'https://raw.githubusercontent.com/Datamanim/datarepo/main/churn/train.csv'
testData = 'https://raw.githubusercontent.com/Datamanim/datarepo/main/churn/test.csv'
subData = 'https://raw.githubusercontent.com/Datamanim/datarepo/main/churn/submission.csv'
train = pd.read_csv(trainData)
test = pd.read_csv(testData)
submission = pd.read_csv(subData)
train
실제 시험은 데이터를 불러올 수 있는 링크(url)가 주어집니다.
①. train.csv, test.csv, submission.csv 데이터 링크를 각각의 변수(trainData, testData, subData)에 저장합니다.
②. pandas모듈과 변수를 활용하여 csv파일을 불러옵니다 (pd.read_csv)
③. train 변수에 저장된 데이터를 불러옵니다. (train)
컴퓨터에 저장된 데이터 불러오기
# 컴퓨터에 저장된 데이터 불러오기
X_train = pd.read_csv("X_train.csv")
X_test = pd.read_csv("X_test.csv")
y_train = pd.read_csv("y_train.csv")
X_train
파일을 다운받은 후 작업경로(*ipynb)에 압축해제합니다.
①. X_train.csv, X_test.csv, y_train.csv 데이터 링크를 각각의 변수(X_train, X_test, y_trian)에 저장합니다.
②. pandas모듈과 변수를 활용하여 csv파일을 불러옵니다 (pd.read_csv)
③. X_train 변수에 저장된 데이터를 불러옵니다.
데이터를 불러왔는데 ◆◆◆◆◆◆ 식으로 문자가 깨지는 경우가 발생합니다.
이 경우 추가적인 작업(*encoding)이 필요합니다.
인코딩(Encoding)은 정보의 형태나 형식을 변환하는 처리 방식입니다.
번역기라고 생각하시면 편합니다.
보통 인코딩값으로 'cp-949', 'uft-8', 'euc-kr'을 입력한 후 글자출력을 확인합니다.
한국데이터산업진흥원에서 제공한 데이터는 encoding='euc-kr'을 입력하면 제대로 출력이 됩니다.
EUC-KR은 한글을 2byte로 변환하는 방법입니다.
# 인코딩 EUC-KR 추가
X_train = pd.read_csv("X_train.csv", encoding='euc-kr')
X_test = pd.read_csv("X_test.csv", encoding='euc-kr')
y_train = pd.read_csv("y_train.csv", encoding='euc-kr')
X_train
X_test
y_train
2. 인덱스(custid)와 변수(features) 분리
본 문제는 목표는 성별분류입니다.
데이터 전처리를 위해 인덱스 기능을 하는 custid와 변수(features)를 분리합니다.
X_train_id = X_train.iloc[:, 0]
X = X_train.iloc[:, 1:]
X_test_id = X_test.iloc[:, 0]
X_test = X_test.iloc[:, 1:]
y = y_train.iloc[:, 1]
①. X_train_id, X_test_id 변수는 각 데이터프레임의 첫번째 열 custid를 의미합니다.
②. X, X_test는 각 데이터프레임의 변수(features)를 의미합니다. (첫번째 열 제외)
③. y는 찾고자하는 목표값 'gender'를 의미합니다.
④. iloc을 이용해 원하는 데이터만 선택합니다. 아래 글을 참고하시면 쉽게 배울 수 있습니다.
3. 데이터 구조 확인하기
보통 info, isnull 함수를 이용하여 데이터의 구조와 결측치를 확인합니다.
결측치란 누락된 값을 의미합니다.
# 데이터 구조 확인하기
X.info()
info 함수를 사용하면 행과 열의 개수, 칼럼명, 결측치가 아닌 셀의 수, 데이터타입 등을 확인할 수 있습니다.
# 데이터 결측치 확인하기
X.isnull().sum()
①. isnull 함수는 셀이 결측치인 경우 True를 반환하고, 결측치가 아닌 경우 False를 반환합니다.
②. sum 함수는 True인 값은 1, False인 값은 0으로 인식하며 칼럼별 합계를 반환합니다.
③. '환불금액' 칼럼에만 결측치가 존재하며, 개수는 2295개입니다.
다음 포스팅에서는 모델의 성능을 좌우하는 '데이터전처리'에 대해서 알아보겠습니다.
#빅데이터분석기사후기 #빅데이터분석기사실기 #빅데이터분석기사필기pdf #빅데이터분석기사합격률 #빅데이터분석기사쓸모 #빅데이터분석기사2022일정 #빅데이터분석기사전망 #빅데이터분석기사실기 #빅데이터분석기사실기파이썬 #빅데이터분석기사실기파이썬 #빅데이터분석기사실기문제 #빅데이터분석기사실기합격률 #빅데이터분석기사실기준비 #빅데이터분석기사필기기출문제 #빅데이터분석기사필기복원 #빅분기기출 #빅분기정리 #빅분기난이도 #빅분기필기복원
'Learning > 빅데이터 분석기사' 카테고리의 다른 글
[빅분기] 데이터 모델링 '만능레시피 - 랜덤포레스트' (0) | 2022.06.08 |
---|---|
[빅분기] 데이터전처리 핵심요약정리 (0) | 2022.06.07 |
[빅분기] 라이브러리/모듈 불러오기 (0) | 2022.06.06 |
'빅데이터분석기사 실기 제2유형' 이것만이라도 알고가자! (0) | 2022.06.06 |
빅데이터분석기사 회귀형 연습문제 (0) | 2021.11.25 |