Data Analysis 22

[ML] 선형 회귀모델

선형 회귀모델 (Linear Regression)변수들 사이의 관계를 추정하는 분석 방법관측 값을 가장 잘 나타내는 직선 혹은 곡선의 방정식을 구하는 통계적 방법독립변수(x1, x2, …값)가 종속변수(y값)에 미치는 영향 분석다중회귀 분석, 단순회귀 분석단순 선형 회귀모델 (Simple Linear Regression)Y = b + wx + 𝜖다중 선형 회귀모델 (Multiple Linear Regression)Y = b + w1x1 + w2x2 + 𝜖최소제곱법 (Least Square Estimator)회귀모델에서 SSE(제곱오차)를 최소화 시키는 모델 파라미터 b, w1, w2 …를 결정하는 방법경사하강법 (Gradient Descent)전체 배치 경사하강법 (Full Batch Gradient..

[ML] 나이브 베이즈

나이브 베이즈 (Naive Bayes)지도학습, 모델기반 분류 모형나이브 베이즈는 순수하게 분류를 위한 모델특성들 간의 독립을 가정하기 때문에 단순화시켜 처리하는 경우에 주로 사용되며 스팸메일 분류, 네트워크 침입 탐지, 비정상행위 탐지, 질병진단 등에 사용된다.나이브 베이즈 장단점장점구현이 쉽고 대부분 좋은 결과를 제공특성들 사이의 연관성을 고려하지 않아 계산이 간단하고 빠르다.적은 크기의 훈련 데이터에서도 잘 동작한다.단점특성들 간의 독립을 가정하기 때문에 종속적인 자료들의 경우 정확도가 떨어진다.분류모델 종류카테고리 나이브 베이즈 분류 모델(CategoricalNB)이진분류가우시안 나이브 베이즈 분류 모델(GausianNB)연속형 특성값우도 추정시 정규분포 사용다중 분류베르누이분포 나이브 베이즈 분..

[ML] K-최근접 이웃

K-최근접 이웃 (K-nearest Neighbors)거리를 이용해 분류(Classification) 또는 회귀(Regression)를 수행하는 알고리즘주어진 개체에 대하여 근처의 K개의 개체들의 클래스들 중에서 가장 많은 클래스로 주어진 개체의 클래스를 지정하는 방법n차원 공간에서 두 점 (X, Y) 사이의 거리는 유클리디안 거리 이용dist(X, Y) = 루트 (x1-y1)^2 + (x2- y2)^2 + … + (xk-yk)^2지도학습, 사례기반 학습예시남녀 구분(머리카락 길이, 키, 몸무게 등)토마토는 채소인지 과일인지 구분할 수 있는 변수(features)로 sweetness, crunchiness를 선정K-최근접 이웃 분류train_data, train_target, test_data, test..

[ML] 차원축소

차원축소많은 변수(feature)로 구성된 데이터 세트의 차원을 감소시켜서 새로운 데이터 시트 생성수백개 이상의 피처로 구성된 데이터 세트는 적게 구성된 세트의 학습 모델보다 예측 신뢰도가 낮다. (과대적합)3차원 이하의 차원 축소를 통해 처리 능력 향상 가능과대적합 (overfitting)머신러닝 모델 학습 시 학습 데이터셋에 지나치게 최적화할 때 발생모델을 지나치게 복잡하게 학습하여 모델 성능은 높게 나타나지만, 새로운 데이터가 주어졌을 때 정확한 예측이나 분류를 수행하지 못한다.과소적합 (underfitting)모델이 충분히 복합하지 않아서 학습 데이터의 구조나 패턴을 정확히 반영하지 못할 때 발생학습 데이터셋 모델 성능보다 새로운 데이터셋에서 모델 성능이 더 높게 나오는 상태차원축소 방법피처 선택..

[ML] 군집분석

군집분석 (Cluster Analysis)주어진 데이터 개체들을 소속 집단의 정보가 없는 상태에서 서로 유사한 것들끼리 그룹화하는 비지도 학습 방법같은 군집내의 개체들은 서로 높은 유사성을 갖고 다른 군집에 속한 개체들은 상대적으로 낮은 유사성을 갖도록 군집화가 이루어짐거리 측도는 군집화를 위한 대표적인 유사성 측도두 개체간의 거리가 가까울수록 서로 유사성이 커진다.유클리디언 거리가 가장 일반적으로 사용되는 거리 측도이다.유클리디언 계산법 = (x1-x2)^2 + (y1-y2)^2 에 루트 씌우기대표 기법계층적 군집화K-평균 군집화(K-means clustering)계층적 군집화절차병합 (agglomerative)가까운 개체끼리 군집화 시키는 방법개별 → 전체분리 (divisive)먼 개체들을 나누어 가..

[ML] 인공지능과 기계학습

지능 (intelligence) 인간이 사물을 이해하고 학습하는 능력 어떤 문제가 주어졌을 때 합리적으로 사고하여 문제를 해결하는 능력 인공지능 (Artificial Intenlligence) 인간의 인지적인 기능을 모방, 문제 해결을 위해 학습하고 이해하는 기계 인공지능의 발전 탐색의 시대(1960~1974) 초기의 AI 프로그램은 대부분 기본 탐색 알고리즘 사용 (단계별로 진행하고, 막다른 곳에 도달할 때 되돌아가는) 해당 시대에는 충분한 CPU나 메모리가 없었기 때문에 많은 정보의 데이터베이스를 만들 수 없었고, 어떻게 학습해야 하는지 알지 못했다. 지식의 시대(1980~1987) 전문가 시스템(expert system) 등장 전문가 시스템: 전문가로부터 지식을 얻어 데이터베이스 생성→ 추론 엔진→..

R / 8장 데이터 통계적 추론 2

범주형 자료 분석 질적자료나 양적자료를 범주에 따라 도수화하여 분류된 자료 분석 카이제곱분포(x^2 분포) 모분산의 추론 범주형 자료 분석 동질성 검정 적합도 검정 독립성 검정 동질성 검정 기대도수 기대되는 값 관측도수 실제 관측된 값 prop.test() 두 모비율 차, 동일한지 검정시 prop.test() 사용 ex) s ← c(1, 2, 3) tot ← c(1, 2, 3) prop.test(s, tot) ex) 1의 비율이 2로 같은지 검정하세요. T ← table(a$열2, a$열1) prop.test(t(T)) 적합도 검정 chisq.test() 무관한지 여부 결정, 어긋난다고 할 수 있을지 독립성 결정 ex) x ← c(1, 2, 3) m ← matrix(x, 행개수, 열개수) chisq.te..

Data Analysis/R 2023.12.15

R / 7장 데이터 통계적 추론 1

통계적 추론 수집한 데이터에서 표본을 추출하여 특성 파악 후 모집단의 특성으로 일반화할 수 있는지 여부를 판단하여 모집단의 특성을 추정하는 것 모집단: 정보를 얻고자 하는 대상이 되는 집단 전체 모수: 모집단의 특성 확률 분포 추론통계 분석에서 모수에 대한 추정은 확률분포를 이용하여 통계적 추정과 가설검정을 진행 정규분포 연속적이고 좌우대칭인 종 모양 t-분포 표본의 수가 적은 경우에 모평균 추정 및 가설 검정에 유용 F-분포 동일한 분산을 가지고 있는 정규분포를 이루는 두 개의 모집단으로부터 추출된 분산들 간의 비율이 이루는 분포 두 집단의 등분산성, 분산분석, 회귀분석에 유영 x^2-분포 정규분포를 이루고 있는 모집단에서 각 표본의 편차제곱합과 모분산의 비율이 이루는 분포 교차분석에서 관찰 빈도와 기..

Data Analysis/R 2023.12.15

R / 6장 데이터 기술통계

기술 통계 수집한 자료로 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 규명하는 기법으로 현재의 현상을 기술하거나 설명하는 것 기술 통계 기법 빈도 분석: 범주형 자료의 분포적 특성 파악 기술 분석: 연속형 자료의 주요 특성 값 파악 교차 분석: 범주형 자료의 두 개 이상의 변수에 대해 교차 빈도 분석 다차원 척도법: 자료 간의 근접성 시각화하여 패턴이나 구조 파악. 유사성, 비유사성 측정하여 다차원 공간에 점으로 표현 그룹 분석: 범주형 자료별 그룹 함수 적용한 기법 탐색적 자료 분석 도구: 주어진 자료를 가지고 정보 찾도록 다양한 자료 분석 도구. 산포도, 박스플롯, 히스토그램 같은 그래픽 도구 활용 자료 구분 연속형 자료 계산 가능한 수치들로 이루어진 자료로 등간척도나 비율척도 형태의 자료로 ..

Data Analysis/R 2023.12.15

R / 5장 데이터 전처리

결측값 데이터를 수집하고 저장하는 과정에서 저장할 값을 얻지 못하는 경우 발생 NA 는 원래 있어야 하는데 없는 값, NULL은 원래 없는 값으로 연산시 제외 결측값 처리 제거하거나 제외하고 분석 결측값을 추정하여 적당한 값으로 치환 후 분석 벡터에서 결측값 처리 결측값이 포함된 벡터는 정상적 계산 불가 is.na() 벡터 내 각각의 값이 NA 인지 여부 확인 함수 na.omit() NA 를 제거하고 $na.action 속성으로 NA 위치 제공 데이터프레임에서 결측값 처리 complete.cases() 데이터프레임에서 NA를 포함하지 않는 완전한 행이면 true, 아니면 false 반환 na.omit() 데이터프레임에서 NA를 포함한 모든 행을 제거 후 나머지 반환 특이값(outlier) 정상적이라고 생..

Data Analysis/R 2023.10.17
728x90