본문 바로가기

AI/Data Analysis, Statistics

(14)
Sprint2_t-test 벌써 AI Boot Camp 시작한 지 한 주가 지났다. (잘 하고 있는 중인지 걱정이 스믈스믈 ) Section2는 통계 과정이다.. 애증의 통계 통계는 크게 '두 가지'로 나눌 수 있다. 1. 기술 통계 : 숫자로 표현 (count, mean, min, max 등등), 데이터를 탐색하기 위함. 2. 추리 통계 : 모르는 것의 예측과 추측 (표본 조사) ☞ 기술 통계는 추리 통계의 기초 작업을 위해 수행하는 과정이라고 볼 수 있다. 추리 통계는 모집단의 표본을 뽑아서 모르는 것의 예측과 추측을 하는 것이다. 대통령 선거 여론조사를 할 때 모든 모집단을 대상으로 조사를 하는 것은 불가능에 가깝기 때문에 표본을 뽑아 조사를 한다. Data Sampling (표본 추출) Simple random sampli..
Sprint1_Sprint challenge Sprint Challenge Section1을 마치며 'Sprint Challenge'를 봤다. 지난 주에 나름 과제도 열심히 했고, 주말에도 다시 정리하는 시간을 가졌는데... ...음..오...아예..... 생각보다 어려웠다. 하하.. 과제를 제출하고 나서도 마음에 들지 않아서 계속 수정했다. 막상 제출하고 천천히 훑어보니 그땐 보이지 않았던 오류들을 발견했다. (ㅋㅋ) Sprint Challenge가 끝나고 한 주를 돌아보는 회고시간을 가졌는데 나의 문제점들을 잘 알 수 있는 시간이었다. 너무 구글링에 의존하는 것 같고,, 코드도 더 효율적으로 짜고싶은데 아직 부족하다. 앞으로 블로그도 더 성실히 하면서 모르는 부분 정리하는 시간을 꼭! 가져야겠다. !! 앞으로 꼭 지켜야할 것 과제를 제출 후 다..
Section1_Data Visualize Bootcamp 4일차 Data Visualize 데이터에 대한 직관적인 이해를 돕기위해 시각적 요소를 사용하여 표현하는 과정 데이터의 트렌드를 확인하거나 insight를 도출할 수 있고, 상대에게 데이터를 설명할 때 용이함 데이터 시각화의 단계 1. 목표 설정 - 누구에게 어떤 내용을 말하고 싶은가 구체적인 목표를 설정해야함 2. 데이터 형변환 - 시각화를 위해 최적화된 형태로 변환 3. Prototype - 어떤 tool, library를 사용할건지 4. Feedback - 색상, 크기, 폰트, 결과 전달이 잘 되는지 등 확인 참고할 사이트 http://seaborn.pydata.org/examples/index.html https://public.tableau.com/ko-kr/gallery htt..
Section1_Data Manipulation Bootcamp 3일차 Data Frame concat / merge 데이터를 분석하다보면 여기저기 흩어진 데이터를 합치는 과정이 필요하다. 데이터를 합치는 방법은 크게 두가지로 나뉜다. 1. Pandas.concat Concat은 두 DataFrame을 행 또는 열 방향으로 붙이는 것을 의미한다. 주의할 점은 두 DataFrame에 동일한 행, 열의 이름이 있어야한다. 그렇지 않을 경우 비어있는 부분은 결측 값이 생긴다. pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True) axis : 축 ( 0 =..
Feature Engineering Feature Engineering : 통계분석, 머신러닝, 딥러닝을 위해 도메인 지식과 창의성을 바탕으로 feature를 재조합하여 새로운 feature를 생성 ex) bmi 지수 → 데이터에 따라 결과에 영향을 많이 미치기 때문에 시간과 비용이 많이 소요됨 1. Feature Engineering - 각 분기별 영업 이익률 계산 - PDR 계산 1. 데이터 불러오기 - 데이터 불러온 후 데이터 타입 확인 import pandas as pd df = pd.read_csv('url.csv') df.dtypes 2. str to int / 영업이익률 계싼 - 영업이익률 계산을 위해 str을 int로 변환하는 함수를 생성 - 영업이익, 매출액에 적용하여 영업이익률 구함 #str을 int로 바꾸는 함수 def..
EDA(Exploratory Data Analysis) CodeStates 첫날이 시작됐다. 첫날이라 간단히 OT만 하고 끝나지 않을까 생각했지만,,(?) 강의와 과제까지 내주셨다ㅎㅎ... 오전에는 OT 위주로 진행되었고, 오후부터는 EDA 수업이 시작됐다. Section_1 : 데이터를 다루기 위한 "배경" 1주차는 python 2, 3주차는 수학(통계, 선대) 과목이다..하하 "수학적 원리"보다는 어디에 사용되는지 "코드로 어떻게 응용할지" 가 더 중요하다고 말씀하셔서 부담을 좀 덜긴했지만,,, 수학 따라가려면 진짜 열심히 해야할 듯 하다. EDA(Exploratory Data Analysis) : 수집한 데이터를 파악하고 어떻게 활용할지가 주 목적으로 데이터를 분석하기 전 그래프, 통계를 통해 자료를 직관적으로 확인하는 과정 데이터 확인 : head()..