본문으로 바로가기

 

차례

1. 데이터 불러오기

2. 인덱스(custid)와 변수(features) 분리 

3. 데이터 구조 확인하기

 

 


 

 

1. 데이터 불러오기 

 

데이터를 불러오는 방법은 두 가지입니다. 

1. 링크 호출(url)

2. 컴퓨터에 저장된 데이터 불러오기

 

데이터 불러오기에 앞서 먼저 라이브러리/모듈을 호출합니다.

# 모듈 불러오기

import pandas as pd
import numpy as np
import sklearn
 

[빅분기] 라이브러리/모듈 불러오기

모듈 불러오기 라이브러리/모듈을 쉽게 설명하면 '종합선물세트'와 같습니다. 우리가 과자 하나하나를 사는게 번거롭고 귀찮기 때문에, 누군가 우리를 위해 미리 만들어 놓은 선물입니다. 가장

bohemihan.tistory.com

 

링크(url)를 통한 호출

# 링크(url)를 통한 호출

trainData = 'https://raw.githubusercontent.com/Datamanim/datarepo/main/churn/train.csv'
testData = 'https://raw.githubusercontent.com/Datamanim/datarepo/main/churn/test.csv'
subData = 'https://raw.githubusercontent.com/Datamanim/datarepo/main/churn/submission.csv'

train = pd.read_csv(trainData)
test = pd.read_csv(testData)
submission = pd.read_csv(subData)

train

실제 시험은 데이터를 불러올 수 있는 링크(url)가 주어집니다.

①. train.csv, test.csv, submission.csv 데이터 링크를 각각의 변수(trainData, testData, subData)에 저장합니다.

②. pandas모듈과 변수를 활용하여 csv파일을 불러옵니다 (pd.read_csv)

③. train 변수에 저장된 데이터를 불러옵니다. (train)

 

 

컴퓨터에 저장된 데이터 불러오기

[Dataset] 작업형 제2유형.zip
0.13MB

# 컴퓨터에 저장된 데이터 불러오기

X_train = pd.read_csv("X_train.csv")
X_test = pd.read_csv("X_test.csv")
y_train = pd.read_csv("y_train.csv")

X_train

파일을 다운받은 후 작업경로(*ipynb)에 압축해제합니다. 

①. X_train.csv, X_test.csv, y_train.csv 데이터 링크를 각각의 변수(X_train, X_test, y_trian)에 저장합니다.

②. pandas모듈과 변수를 활용하여 csv파일을 불러옵니다 (pd.read_csv)

③. X_train 변수에 저장된 데이터를 불러옵니다.

 

데이터를 불러왔는데 ◆◆◆◆◆◆ 식으로 문자가 깨지는 경우가 발생합니다.

이 경우 추가적인 작업(*encoding)이 필요합니다.

 

인코딩(Encoding)은 정보의 형태나 형식을 변환하는 처리 방식입니다.

번역기라고 생각하시면 편합니다. 

보통 인코딩값으로 'cp-949', 'uft-8', 'euc-kr'을 입력한 후 글자출력을 확인합니다.

한국데이터산업진흥원에서 제공한 데이터는 encoding='euc-kr'을 입력하면 제대로 출력이 됩니다.

EUC-KR은 한글을 2byte로 변환하는 방법입니다.

 

# 인코딩 EUC-KR 추가

X_train = pd.read_csv("X_train.csv", encoding='euc-kr')
X_test = pd.read_csv("X_test.csv", encoding='euc-kr')
y_train = pd.read_csv("y_train.csv", encoding='euc-kr')

X_train

 

X_test

 

y_train

 

 

 

2. 인덱스(custid)와 변수(features) 분리 

 

본 문제는 목표는 성별분류입니다.

데이터 전처리를 위해 인덱스 기능을 하는 custid와 변수(features)를 분리합니다.

X_train_id = X_train.iloc[:, 0]
X = X_train.iloc[:, 1:]

X_test_id = X_test.iloc[:, 0]
X_test = X_test.iloc[:, 1:]

y = y_train.iloc[:, 1]

①. X_train_id, X_test_id 변수는 각 데이터프레임의 첫번째 열 custid를 의미합니다.

②. X, X_test는 각 데이터프레임의 변수(features)를 의미합니다. (첫번째 열 제외)

③. y는 찾고자하는 목표값 'gender'를 의미합니다.

④. iloc을 이용해 원하는 데이터만 선택합니다. 아래 글을 참고하시면 쉽게 배울 수 있습니다.

 

[엑셀처럼 쓰는 파이썬] 셀/데이터 선택하기 (loc / iloc)

데이터 편집/변환의 기본은 데이터 선택입니다. 엑셀과 파이썬에서 데이터 선택하는 방법을 알아보겠습니다. [Excel] 셀 범위를 선택하는 4가지 방법 [Excel] 셀 범위를 선택하는 4가지 방법 셀

bohemihan.tistory.com

 

 

 

3. 데이터 구조 확인하기

 

보통 info, isnull 함수를 이용하여 데이터의 구조와 결측치를 확인합니다. 

결측치란 누락된 값을 의미합니다. 

# 데이터 구조 확인하기

X.info()

info 함수를 사용하면 행과 열의 개수, 칼럼명, 결측치가 아닌 셀의 수, 데이터타입 등을 확인할 수 있습니다. 

 

# 데이터 결측치 확인하기

X.isnull().sum()

①. isnull 함수는 셀이 결측치인 경우 True를 반환하고, 결측치가 아닌 경우 False를 반환합니다.

②. sum 함수는 True인 값은 1, False인 값은 0으로 인식하며 칼럼별 합계를 반환합니다. 

③. '환불금액' 칼럼에만 결측치가 존재하며, 개수는 2295개입니다.

 

다음 포스팅에서는 모델의 성능을 좌우하는 '데이터전처리'에 대해서 알아보겠습니다.

#빅데이터분석기사후기 #빅데이터분석기사실기 #빅데이터분석기사필기pdf #빅데이터분석기사합격률 #빅데이터분석기사쓸모 #빅데이터분석기사2022일정 #빅데이터분석기사전망 #빅데이터분석기사실기 #빅데이터분석기사실기파이썬 #빅데이터분석기사실기파이썬 #빅데이터분석기사실기문제 #빅데이터분석기사실기합격률 #빅데이터분석기사실기준비 #빅데이터분석기사필기기출문제 #빅데이터분석기사필기복원 #빅분기기출 #빅분기정리 #빅분기난이도 #빅분기필기복원