본문 바로가기

분류 전체보기

(67)
Python - Pandas tricks cols = ['beer_servings', 'continent'] small_drinks = pd.read_csv('http://bit.ly/drinksbycountry', usecols=cols) small_drinks.info() 본 글은 data school의 pandas tricks을 설명한 영상을 보고 작성한 글입니다. pandas tricks은 데이터를 더 빠르고 보기 좋게 작성하는데 도움이 됩니다. 1. Pandas version 확인 #pandas 버전 확인 pd.__version__ #pandas 내부 속성 버전 확인 pd.show_versions() 2. Example data frame 만들기 np.random.rand(4,8)으로 4개의 row, 8개의 column을 가진 data..
Feature Engineering Feature Engineering : 통계분석, 머신러닝, 딥러닝을 위해 도메인 지식과 창의성을 바탕으로 feature를 재조합하여 새로운 feature를 생성 ex) bmi 지수 → 데이터에 따라 결과에 영향을 많이 미치기 때문에 시간과 비용이 많이 소요됨 1. Feature Engineering - 각 분기별 영업 이익률 계산 - PDR 계산 1. 데이터 불러오기 - 데이터 불러온 후 데이터 타입 확인 import pandas as pd df = pd.read_csv('url.csv') df.dtypes 2. str to int / 영업이익률 계싼 - 영업이익률 계산을 위해 str을 int로 변환하는 함수를 생성 - 영업이익, 매출액에 적용하여 영업이익률 구함 #str을 int로 바꾸는 함수 def..
EDA(Exploratory Data Analysis) CodeStates 첫날이 시작됐다. 첫날이라 간단히 OT만 하고 끝나지 않을까 생각했지만,,(?) 강의와 과제까지 내주셨다ㅎㅎ... 오전에는 OT 위주로 진행되었고, 오후부터는 EDA 수업이 시작됐다. Section_1 : 데이터를 다루기 위한 "배경" 1주차는 python 2, 3주차는 수학(통계, 선대) 과목이다..하하 "수학적 원리"보다는 어디에 사용되는지 "코드로 어떻게 응용할지" 가 더 중요하다고 말씀하셔서 부담을 좀 덜긴했지만,,, 수학 따라가려면 진짜 열심히 해야할 듯 하다. EDA(Exploratory Data Analysis) : 수집한 데이터를 파악하고 어떻게 활용할지가 주 목적으로 데이터를 분석하기 전 그래프, 통계를 통해 자료를 직관적으로 확인하는 과정 데이터 확인 : head()..