본문 바로가기

Data Science

(38)
Python 결측치 처리 1. 결측치 확인 np.random.rand()로 0~1 사이 랜덤한 data를 만들고 임의로 결측치를 만들었다. import pandas as pd import numpy as np #np.random.rand(m, n) : 0~1 사이 난수 생성 data = pd.DataFrame(np.random.rand(7, 3), columns=['A', 'B', 'C']) data #결측치 만들기 data.iloc[0, 0] = np.nan data.iloc[1, 0] = np.nan data.iloc[2, 2] = np.nan data.iloc[3, 4] = np.nan data.iloc[4, 3] = np.nan data.iloc[5, 1] = np.nan data.iloc[5, 2] = np.nan da..
python으로 카이제곱 검정 python으로 One-sample 카이제곱검정을 하는 방법은 아래와 같다. from scipy.stats import chisquare chisquare(data, axis=None) python으로 Two-sample 카이제곱검정을 하는 방법은 아래와 같다. from scipy.stats import chi2_contingency chi2_contingency(data1, correction=False)
Python으로 T-test t-test에 필요한 python 패키, 모듈을 불러옵니다. import numpy as np from scipy import stats numpy는 행렬(matrix), 배열(ndarray)을 쉽게 처리할 수 있도록 지원하는 패키지 scipy는 수학, 과학, 및 공학을 위한 오픈소스 소프트웨어로, 여기서 Stats 모듈은 통계 함수를 제공한다. 아래의 코드와 같이 stats.ttest_ind()를 통해 t-value와 p-value를 계산할 수 있다. #one sample t-test stats.ttest_1samp(a, 평균 값) #two sample t-test stats.ttest_ind(a, b) reference noonsong.tistory.com/15 blog.daum.net/geoscie..
matplotlib - bar chart matplotlib는 python 시각화 라이브러리 패키지로 line plot, bar, pie, histogram, scatterplot 등 다양한 차트를 지원한다. 본 포스팅은 tips 데이터를 이용하여 bar chart로 시각화 한 것을 포스팅한다. 우선 필요한 라이브러리와 데이터를 불러온다. import pandas as pd import numpy as np from matplotlib import pyplot as plt df = pd.read_csv('/tips.csv') df.head() tips data에서 time별 데이터의 합계를 비교한다. 우선 time을 기준으로 groupby하여 time별 데이터 합계를 구한다. time_data = df.groupby('time').sum() t..
Colab 로컬에서 파일 불러오기 "Colab" 은 Google Research 팀에서 개발한 서비스로 웹브라우저를 통해 클라우드 상에서 CPU뿐만 아니라 GPU나 TPU도 무료로 사용하여 Python과 Jupyter Notebook으로 데이터 분석을 할 수 있다. 해당 포스팅은 로컬 PC에 있는 데이터를 업로드하는 방법 2가지를 설명한다. 1. Local folder에서 파일 불러오기 from google.colab import files uploaded = files.upload() google.colab에서 files라는 package를 import한다. 위의 코드를 실행하면 아래와 같이 '파일 선택' 버튼이 생성된다. 파일 선택을 누른 뒤 Local folder에서 원하는 파일을 선택하면 된다. import io import pa..
Python - Pandas tricks cols = ['beer_servings', 'continent'] small_drinks = pd.read_csv('http://bit.ly/drinksbycountry', usecols=cols) small_drinks.info() 본 글은 data school의 pandas tricks을 설명한 영상을 보고 작성한 글입니다. pandas tricks은 데이터를 더 빠르고 보기 좋게 작성하는데 도움이 됩니다. 1. Pandas version 확인 #pandas 버전 확인 pd.__version__ #pandas 내부 속성 버전 확인 pd.show_versions() 2. Example data frame 만들기 np.random.rand(4,8)으로 4개의 row, 8개의 column을 가진 data..