본문 바로가기

전체 글

(67)
Sprint2_Hypothesis test 어제 배웠던 T-test에 보충 설명이다. T-test를 하기 위해서는 몇 가지 조건이 따른다. 1. 독립성 : 두 그룹이 서로 독립적 이어야 한다. - 독립적이라는 의미는 비교하려는 두 집단의 구성이 서로 관계가 없어야 한다는 것을 의미한다. 2. 정규성 : 데이터가 특정 값에 편향되지 않고 적절히 잘 수집 되었는지 확인해야 한다. 3. 등분산성 : 두 그룹의 분산이 어느 정도 유사한지 확인해야 한다. normaltest(data) python에서는 nomaltest()를 통해 등분산성을 파악할 수 있다. 키, 몸무게와 같은 연속형 자료(수량화 할 수 있는 데이터)를 분석할 때에는 T-test와 ANOVA 분석 방법이 사용된다. 반면에, 성별, 혈액형 등 범주형 자료(수량화 할 수 없는 데이터)를 분석..
Python으로 T-test t-test에 필요한 python 패키, 모듈을 불러옵니다. import numpy as np from scipy import stats numpy는 행렬(matrix), 배열(ndarray)을 쉽게 처리할 수 있도록 지원하는 패키지 scipy는 수학, 과학, 및 공학을 위한 오픈소스 소프트웨어로, 여기서 Stats 모듈은 통계 함수를 제공한다. 아래의 코드와 같이 stats.ttest_ind()를 통해 t-value와 p-value를 계산할 수 있다. #one sample t-test stats.ttest_1samp(a, 평균 값) #two sample t-test stats.ttest_ind(a, b) reference noonsong.tistory.com/15 blog.daum.net/geoscie..
Sprint2_t-test 벌써 AI Boot Camp 시작한 지 한 주가 지났다. (잘 하고 있는 중인지 걱정이 스믈스믈 ) Section2는 통계 과정이다.. 애증의 통계 통계는 크게 '두 가지'로 나눌 수 있다. 1. 기술 통계 : 숫자로 표현 (count, mean, min, max 등등), 데이터를 탐색하기 위함. 2. 추리 통계 : 모르는 것의 예측과 추측 (표본 조사) ☞ 기술 통계는 추리 통계의 기초 작업을 위해 수행하는 과정이라고 볼 수 있다. 추리 통계는 모집단의 표본을 뽑아서 모르는 것의 예측과 추측을 하는 것이다. 대통령 선거 여론조사를 할 때 모든 모집단을 대상으로 조사를 하는 것은 불가능에 가깝기 때문에 표본을 뽑아 조사를 한다. Data Sampling (표본 추출) Simple random sampli..
Sprint1_Sprint challenge Sprint Challenge Section1을 마치며 'Sprint Challenge'를 봤다. 지난 주에 나름 과제도 열심히 했고, 주말에도 다시 정리하는 시간을 가졌는데... ...음..오...아예..... 생각보다 어려웠다. 하하.. 과제를 제출하고 나서도 마음에 들지 않아서 계속 수정했다. 막상 제출하고 천천히 훑어보니 그땐 보이지 않았던 오류들을 발견했다. (ㅋㅋ) Sprint Challenge가 끝나고 한 주를 돌아보는 회고시간을 가졌는데 나의 문제점들을 잘 알 수 있는 시간이었다. 너무 구글링에 의존하는 것 같고,, 코드도 더 효율적으로 짜고싶은데 아직 부족하다. 앞으로 블로그도 더 성실히 하면서 모르는 부분 정리하는 시간을 꼭! 가져야겠다. !! 앞으로 꼭 지켜야할 것 과제를 제출 후 다..
matplotlib - bar chart matplotlib는 python 시각화 라이브러리 패키지로 line plot, bar, pie, histogram, scatterplot 등 다양한 차트를 지원한다. 본 포스팅은 tips 데이터를 이용하여 bar chart로 시각화 한 것을 포스팅한다. 우선 필요한 라이브러리와 데이터를 불러온다. import pandas as pd import numpy as np from matplotlib import pyplot as plt df = pd.read_csv('/tips.csv') df.head() tips data에서 time별 데이터의 합계를 비교한다. 우선 time을 기준으로 groupby하여 time별 데이터 합계를 구한다. time_data = df.groupby('time').sum() t..
Colab 로컬에서 파일 불러오기 "Colab" 은 Google Research 팀에서 개발한 서비스로 웹브라우저를 통해 클라우드 상에서 CPU뿐만 아니라 GPU나 TPU도 무료로 사용하여 Python과 Jupyter Notebook으로 데이터 분석을 할 수 있다. 해당 포스팅은 로컬 PC에 있는 데이터를 업로드하는 방법 2가지를 설명한다. 1. Local folder에서 파일 불러오기 from google.colab import files uploaded = files.upload() google.colab에서 files라는 package를 import한다. 위의 코드를 실행하면 아래와 같이 '파일 선택' 버튼이 생성된다. 파일 선택을 누른 뒤 Local folder에서 원하는 파일을 선택하면 된다. import io import pa..
Section1_Data Visualize Bootcamp 4일차 Data Visualize 데이터에 대한 직관적인 이해를 돕기위해 시각적 요소를 사용하여 표현하는 과정 데이터의 트렌드를 확인하거나 insight를 도출할 수 있고, 상대에게 데이터를 설명할 때 용이함 데이터 시각화의 단계 1. 목표 설정 - 누구에게 어떤 내용을 말하고 싶은가 구체적인 목표를 설정해야함 2. 데이터 형변환 - 시각화를 위해 최적화된 형태로 변환 3. Prototype - 어떤 tool, library를 사용할건지 4. Feedback - 색상, 크기, 폰트, 결과 전달이 잘 되는지 등 확인 참고할 사이트 http://seaborn.pydata.org/examples/index.html https://public.tableau.com/ko-kr/gallery htt..
Section1_Data Manipulation Bootcamp 3일차 Data Frame concat / merge 데이터를 분석하다보면 여기저기 흩어진 데이터를 합치는 과정이 필요하다. 데이터를 합치는 방법은 크게 두가지로 나뉜다. 1. Pandas.concat Concat은 두 DataFrame을 행 또는 열 방향으로 붙이는 것을 의미한다. 주의할 점은 두 DataFrame에 동일한 행, 열의 이름이 있어야한다. 그렇지 않을 경우 비어있는 부분은 결측 값이 생긴다. pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True) axis : 축 ( 0 =..