본문 바로가기

Data Science/Python

(10)
dataframe 자주 쓰는 것들 데이터 전처리 할 때 자주 쓰는 것들인데 자꾸 까먹어서 정리해둬야겠다... 시간 아껴야지 +_+ (계속 추가) - 특정 컬럼이 null 값인 데이터 삭제 하기 dele = data[data['age'].isnull()].index data = data.drop(dele) - null 값을 특정 값으로 변환하기 data['age'] = data['age'].fillna('0') - 특정 값 치환하기 data['name'] = data['name'].str.replace("groot", "rocket") - 데이터 형 변환 data['age'] = data['age'].astype(int) - 특정 컬럼에서 특정 값 찾기 data[data['age'] == 25] - 특정 컬럼에서 중복 데이터가 있으면 삭제..
정부 API로 josn 파싱하기 *API(Application Programming Interface) API(Application Programming Interface, 응용 프로그램 프로그래밍 인터페이스)는 응용 프로그램에서 사용할 수 있도록, 운영 체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스를 뜻한다. 주로 파일 제어, 창 제어, 화상 처리, 문자 제어 등을 위한 인터페이스를 제공한다. import csv import requests from decouple import config from datetime import timedelta, datetime from pprint import pprint # 정보를 담을 빈 딕셔너리 생성 result = {} # url을 호출 for i in range(..
지수 표기 숫자로 변환하여 표현하기 data['audiAcc'].describe() > pd.options.display.float_format = '{:.5f}'.format data['audiAcc'].describe() >
Python으로 하는 EDA(Exploratory Data Analysis) import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import matplotlib.font_manager as fm import matplotlib as mpl import plotly.express as px from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator from PIL import Image from google.colab import drive drive.mount('/content/drive') 1. Check data (missing values, descriptive statistics) data = pd.rea..
Python 결측치 처리 1. 결측치 확인 np.random.rand()로 0~1 사이 랜덤한 data를 만들고 임의로 결측치를 만들었다. import pandas as pd import numpy as np #np.random.rand(m, n) : 0~1 사이 난수 생성 data = pd.DataFrame(np.random.rand(7, 3), columns=['A', 'B', 'C']) data #결측치 만들기 data.iloc[0, 0] = np.nan data.iloc[1, 0] = np.nan data.iloc[2, 2] = np.nan data.iloc[3, 4] = np.nan data.iloc[4, 3] = np.nan data.iloc[5, 1] = np.nan data.iloc[5, 2] = np.nan da..
python으로 카이제곱 검정 python으로 One-sample 카이제곱검정을 하는 방법은 아래와 같다. from scipy.stats import chisquare chisquare(data, axis=None) python으로 Two-sample 카이제곱검정을 하는 방법은 아래와 같다. from scipy.stats import chi2_contingency chi2_contingency(data1, correction=False)
Python으로 T-test t-test에 필요한 python 패키, 모듈을 불러옵니다. import numpy as np from scipy import stats numpy는 행렬(matrix), 배열(ndarray)을 쉽게 처리할 수 있도록 지원하는 패키지 scipy는 수학, 과학, 및 공학을 위한 오픈소스 소프트웨어로, 여기서 Stats 모듈은 통계 함수를 제공한다. 아래의 코드와 같이 stats.ttest_ind()를 통해 t-value와 p-value를 계산할 수 있다. #one sample t-test stats.ttest_1samp(a, 평균 값) #two sample t-test stats.ttest_ind(a, b) reference noonsong.tistory.com/15 blog.daum.net/geoscie..
matplotlib - bar chart matplotlib는 python 시각화 라이브러리 패키지로 line plot, bar, pie, histogram, scatterplot 등 다양한 차트를 지원한다. 본 포스팅은 tips 데이터를 이용하여 bar chart로 시각화 한 것을 포스팅한다. 우선 필요한 라이브러리와 데이터를 불러온다. import pandas as pd import numpy as np from matplotlib import pyplot as plt df = pd.read_csv('/tips.csv') df.head() tips data에서 time별 데이터의 합계를 비교한다. 우선 time을 기준으로 groupby하여 time별 데이터 합계를 구한다. time_data = df.groupby('time').sum() t..