본문 바로가기

AI/Data Analysis, Statistics

EDA(Exploratory Data Analysis)

 

 

 

CodeStates 첫날이 시작됐다.

첫날이라 간단히 OT만 하고 끝나지 않을까 생각했지만,,(?) 강의와 과제까지 내주셨다ㅎㅎ...

오전에는 OT 위주로 진행되었고, 오후부터는 EDA 수업이 시작됐다.

 

Section_1 : 데이터를 다루기 위한 "배경"

1주차는 python 2, 3주차는 수학(통계, 선대) 과목이다..하하

"수학적 원리"보다는 어디에 사용되는지 "코드로 어떻게 응용할지" 가 더 중요하다고 말씀하셔서 부담을 좀 덜긴했지만,,, 수학 따라가려면 진짜 열심히 해야할 듯 하다.

 

EDA(Exploratory Data Analysis)

  : 수집한 데이터를 파악하고 어떻게 활용할지가 주 목적으로 데이터를 분석하기 전 그래프, 통계를 통해 자료를 직관적으로 확인하는 과정

 

  • 데이터 확인 : head(), tail()을 통해 데이터가 어떻게 구성됐는지 확인
  • dimension : shape()를 통해 데이터 구조 확인
  • missing value : isnell()을 통해 결측 값을 확인하고 확인된 결측값을 0 또는 평균값 등 대처

 

<과제>

1. 데이터셋 불러오기

import pandas as pd
data_url = 'url/.xlsx'

data1 = pd.read_excel(Travel_url, sheet_name="008770 ")
data2 = pd.read_excel(Travel_url, sheet_name="035250")

2. dimension, Missing value확인

#data dimension 확인
print(data1.shape)

#결측치 확인
data1.isnull()

#결측치 0으로 변경
data1=data1.fillna(0)
data1.head()

3. barplot 생성

   - 하... 이 부분에서 엄청 헤맸다.... 2가지 문제가 발생했었는데

 1. keyerror 발생 : 대체 뭐가 문제인가.. 고민하다가 data.set_index를 통해 인덱스를 설정해주니 문제가 해결됐다.

 2. 한글 깨짐 : 올려주신 한글 깨짐 문제 해결 자료를 보아도 계속 오류가 났는데 colab에서 한글 폰트를 사용하려면 폰트를 설치해야 된다고 한다. ^_^

뭔가 해결하고 나니 별 것도 아닌걸로 고생했다 싶었는데 이렇게 성장하는거 아니겠어요?ㅎ...ㅎ

 

1. 한글 폰트 설치 및 설정

   - colab에서는 한글 폰트가 지원이 안되기 때문에 따로 설치를 해줘야한다.

#폰트 설치
!apt -qq -y install fonts-nanum

#폰트 설정, 마이너스 부호 설정
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
plt.rc('font', family='NanumBarunGothic') 
plt.rc('axes', unicode_minus=False)

mpl.font_manager._rebuild()

 

2. barplot 생성

data1 = data1.set_index('주요재무정보')
data11 = data1.transpose()
data11['ROA(%)'].plot.bar()

 

첫 수업에서는 .xlsx 데이터를 불러온 후 시각화 하는 것으로 진행됐다.

 

사실 수업들은 후 어렵지 않아 과제도 금방 할 줄 알았는데,,,, 꽤 시간이 걸렸다. 

 

자꾸 keyerror가 발생해서 한참 헤매이다가 Transpose를 통해 행렬를 변환한 후 data.set_index로 인덱스를 재설정하였더니 keyerror를 해결했다.

 

과제는 달성하긴 했는데 뭔가 음,, 마음에 안들어서 다시 수정해야 할 듯..ㅎㅎ

 

확실히 혼자 공부할 때 보다 어떤 압박감(?)도 있고, 같이 고민을 공유할 사람들이 있어서 도움이 많이 될 것 같다. 강사님께서 Bootcamp 수강하는 동안은 친구도 안만나고 9kg이나 빠지셨다고 하셨는데ㅎ,,

수료까지 죽었다 생각하고 해야할 것 같다. 내 인생 우리 인생 팟팅,,,🔥

 

 

🔥🔥🔥

1. pandas 다루는 방법 더 공부해야 할 듯

2. github도,, 넘 낯설다,,, 

'AI > Data Analysis, Statistics' 카테고리의 다른 글

Sprint2_t-test  (0) 2021.01.05
Sprint1_Sprint challenge  (0) 2021.01.05
Section1_Data Visualize  (0) 2021.01.02
Section1_Data Manipulation  (0) 2020.12.31
Feature Engineering  (0) 2020.12.29