본문 바로가기

전체 글

(67)
2021년 1월 17일 TIL 블로그 포스팅을 한다고 하면 뭔가 잘 정리된 글을 써야 될 것만 같은 느낌에 부담이 돼서 Today I Learned 카테고리를 만들었다. 작은 거라도 매일매일 기록하는 습관을 들여야지! 월요일에 있을 Sprint challenge 대비 복습할 겸, 또 선형대수는 앞으로도 계속 필요할 것 같아서 인공지능을 위한 선형대수 강의로 복습했다. 이 강의는 길지 않으면서 요점만 알려주는 것 같아 좋은 것 같다. 이번 주 안으로 꼭 끝까지 수강하자 💪 Emoji 복사해오는 사이트 emojihomepage.com/ Emoji Homepage 👀 - Copy and paste emoji. 💨 Fast and 👌 Simple. 🤔 Find ☝ Your 😀 Emoji 💨 Fast & 👌 Simple! 👆 Click to ..
Python 결측치 처리 1. 결측치 확인 np.random.rand()로 0~1 사이 랜덤한 data를 만들고 임의로 결측치를 만들었다. import pandas as pd import numpy as np #np.random.rand(m, n) : 0~1 사이 난수 생성 data = pd.DataFrame(np.random.rand(7, 3), columns=['A', 'B', 'C']) data #결측치 만들기 data.iloc[0, 0] = np.nan data.iloc[1, 0] = np.nan data.iloc[2, 2] = np.nan data.iloc[3, 4] = np.nan data.iloc[4, 3] = np.nan data.iloc[5, 1] = np.nan data.iloc[5, 2] = np.nan da..
Sprint3_선형대수(dimension reduction) dimension reduction 데이터가 많다고 해서 무조건 좋건 아니다. 변수가 너무 많을 경우 시각화가 어렵고 계산 복잡도가 높아진다. 변수를 줄이기 위한 방법으로는 feature selection(변수 선택), feature extraction(변수 추출)이 있다. 오늘 배운 PCA는 feature extraction에 해당하며, 상관관계를 고려한다는 장점이 있지만, 추출된 변수의 해석이 어렵다는 단점이 있다. PCA (Principal Component Analysis) feature 수가 많은 데이터 셋의 불필요한 feature를 줄이기 위한 방법 중 하나 projection된 데이터의 variance가 최대화되는 projection matrix를 찾는 문제(원데이터의 분산을 최대한 보존하는..
Sprint3_선형대수(Linear combinations, span, and basis vectors) Variance : 데이터가 얼마나 퍼져있는가 측정하는 방법 data.a.var(ddof=1) Standard Deviation : 분산은 스케일이 커지기 때문에 제곱근으로 적당히 줄인 값 data.a.std(ddof=1) Covariance : 변수 1개가 변할 때 다른 변수는 어떤 변화가 생기는지 측정 (a) cov(x, y) > 0 : x가 증가하면 y도 증가 (b) cov(x, y) 0 &..
Sprint3_선형대수(백터, 스칼라) (통계 가고 선형대수 옴...) 선형대수(Linear Algebra) 머신러닝에 있어서 선형대수는 매우 중요하다. 컴퓨터가 이미지 처리, 자연어 처리, 추천 알고리즘 등 머신러닝을 통해 학습을 하기 위해서는 대량의 데이터를 받아들이고 처리할 수 있어야 하는데, 데이터를 처리하는 과정에서 선형대수가 필요하다고 한다. Input data와 output data가 여러개 있고 이 변수들이 서로 선형적인 관계로 얽혀있다고 가정할 때, 이 얽혀있는 부분을 행렬로 표현한다. 즉, 선형대수를 간단히 설명하면 주어진 데이터를 행렬로 표현한 것이다. 스칼라(Scalar) : 변수로저장되어있는단일 숫자. 소문자 기호로 표기함. 벡터(Vector) : 데이터의 행, 열(python에서는 list로 사용된다.) 여러개의 숫자..
Section2_Sprint challenge Sprint Challenge Section2 회고. 이번 주 차 내내 수업 들을 땐 알겠다가도 과제할 땐 정말 많이 헤맸다. 우선 여러 블로그나 자료들을 참조하다보니 통계 단어가 헷갈리는게 많았고, 라이브러리로 통계치를 내다보니까 통계적 의미도 제대로 이해하지 못한 것 같다. 통계는 다시 한 번 블로그에 정리하면서 나만의 용어로 습득하는 시간을 가져야 될 것 같다. 주말에 kaggle dataset으로 통계 공부하려고 했는데 데이터 전처리 하다가 시간이 다 갔다....허허 새로운 데이터에 내가 배운걸 적용하는게 어려운 것 같다. !!해야할 것 블로그에 통계 정리 포스팅 백준 알고리즘 시작
Section_Confidence Interval Confidence Interval (신뢰 구간) : 모수가 실제로 포함될 것이라고 예측되는 범위. 집단 전체를 연구하는 것은 현실적으로 불가능하기 때문에 모집단에서 샘플링 데이터를 기반으로 모수의 범위를 추정한다. 즉 샘플링된 표본이 모집단을 얼마나 잘 대표하는가를 측정한다. 일반적으로 95%의 신뢰수준이 사용된다. *모수(Population parameter) : 모집단 전체를 설명하는 측도 Central Limit Theorem (중심 극한 정리) : 중심 극한 정리는 표본의 크기가 증가함에 따라 평균의 표본 분포가 정규 분포에 근사해진다는 이론. 정규분포는 종 모양의 분포를 보이며, 표본의 크기가 클수록 모수 예측이 정확해진다. (모집단으로부터 추출한 표본의 평균) 이때, 표본의 크기는 최소 30..
python으로 카이제곱 검정 python으로 One-sample 카이제곱검정을 하는 방법은 아래와 같다. from scipy.stats import chisquare chisquare(data, axis=None) python으로 Two-sample 카이제곱검정을 하는 방법은 아래와 같다. from scipy.stats import chi2_contingency chi2_contingency(data1, correction=False)