Data Analysis/R 8

R / 8장 데이터 통계적 추론 2

범주형 자료 분석 질적자료나 양적자료를 범주에 따라 도수화하여 분류된 자료 분석 카이제곱분포(x^2 분포) 모분산의 추론 범주형 자료 분석 동질성 검정 적합도 검정 독립성 검정 동질성 검정 기대도수 기대되는 값 관측도수 실제 관측된 값 prop.test() 두 모비율 차, 동일한지 검정시 prop.test() 사용 ex) s ← c(1, 2, 3) tot ← c(1, 2, 3) prop.test(s, tot) ex) 1의 비율이 2로 같은지 검정하세요. T ← table(a$열2, a$열1) prop.test(t(T)) 적합도 검정 chisq.test() 무관한지 여부 결정, 어긋난다고 할 수 있을지 독립성 결정 ex) x ← c(1, 2, 3) m ← matrix(x, 행개수, 열개수) chisq.te..

Data Analysis/R 2023.12.15

R / 7장 데이터 통계적 추론 1

통계적 추론 수집한 데이터에서 표본을 추출하여 특성 파악 후 모집단의 특성으로 일반화할 수 있는지 여부를 판단하여 모집단의 특성을 추정하는 것 모집단: 정보를 얻고자 하는 대상이 되는 집단 전체 모수: 모집단의 특성 확률 분포 추론통계 분석에서 모수에 대한 추정은 확률분포를 이용하여 통계적 추정과 가설검정을 진행 정규분포 연속적이고 좌우대칭인 종 모양 t-분포 표본의 수가 적은 경우에 모평균 추정 및 가설 검정에 유용 F-분포 동일한 분산을 가지고 있는 정규분포를 이루는 두 개의 모집단으로부터 추출된 분산들 간의 비율이 이루는 분포 두 집단의 등분산성, 분산분석, 회귀분석에 유영 x^2-분포 정규분포를 이루고 있는 모집단에서 각 표본의 편차제곱합과 모분산의 비율이 이루는 분포 교차분석에서 관찰 빈도와 기..

Data Analysis/R 2023.12.15

R / 6장 데이터 기술통계

기술 통계 수집한 자료로 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 규명하는 기법으로 현재의 현상을 기술하거나 설명하는 것 기술 통계 기법 빈도 분석: 범주형 자료의 분포적 특성 파악 기술 분석: 연속형 자료의 주요 특성 값 파악 교차 분석: 범주형 자료의 두 개 이상의 변수에 대해 교차 빈도 분석 다차원 척도법: 자료 간의 근접성 시각화하여 패턴이나 구조 파악. 유사성, 비유사성 측정하여 다차원 공간에 점으로 표현 그룹 분석: 범주형 자료별 그룹 함수 적용한 기법 탐색적 자료 분석 도구: 주어진 자료를 가지고 정보 찾도록 다양한 자료 분석 도구. 산포도, 박스플롯, 히스토그램 같은 그래픽 도구 활용 자료 구분 연속형 자료 계산 가능한 수치들로 이루어진 자료로 등간척도나 비율척도 형태의 자료로 ..

Data Analysis/R 2023.12.15

R / 5장 데이터 전처리

결측값 데이터를 수집하고 저장하는 과정에서 저장할 값을 얻지 못하는 경우 발생 NA 는 원래 있어야 하는데 없는 값, NULL은 원래 없는 값으로 연산시 제외 결측값 처리 제거하거나 제외하고 분석 결측값을 추정하여 적당한 값으로 치환 후 분석 벡터에서 결측값 처리 결측값이 포함된 벡터는 정상적 계산 불가 is.na() 벡터 내 각각의 값이 NA 인지 여부 확인 함수 na.omit() NA 를 제거하고 $na.action 속성으로 NA 위치 제공 데이터프레임에서 결측값 처리 complete.cases() 데이터프레임에서 NA를 포함하지 않는 완전한 행이면 true, 아니면 false 반환 na.omit() 데이터프레임에서 NA를 포함한 모든 행을 제거 후 나머지 반환 특이값(outlier) 정상적이라고 생..

Data Analysis/R 2023.10.17

R / 4장 R 프로그래밍

절차지향 프로그래밍 선택 구문 if(조건) 조건참문장 if (x>0) “hi” if(조건) { 조건참문장 } if (x>0) { “hi” } ifelse(조건, 조건참문장, 조건거짓문장) ifelse(x > 0, x ← 2*x, x ← -x) if(조건) { 조건참문장 } else { 조건거짓문장 } if(x>0) { x ← 2*x } else { x ← -x} if (조건1) { 조건1참문장 } else if (조건2) {조건2참문장} else { 모든조건거짓문장 } score 90 ) { grade 80) { grade 70) { grade 60) { grade 0) next } 함수 생성 args() 이용하여 함수에서 사용할 인수 확인 가능 함수명, 코드, 인수를 가지고 function() 함수로 ..

Data Analysis/R 2023.10.17

R / 3장 R 자료관리, 수집

데이터 생성 edit() 데이터 편집기 창 생성 data ← data.frame() data ← edit(data) 데이터 보기 View() CSV 파일 write.csv() write.csv(df, file=”df.csv”) read.csv() 변수명이 없는 csv 파일 불러올 때 header=F 현재 작업폴더 확인시 getwd() RDS 파일 R 전용 데이터 파일 saveRDS(), readRDS() R 데이터 불러오기 작업 영역 설정 setwd(”C:\\등등”) data ← read.csv(”파일이름”, header=F, fileEncoding=”EUC-KR”) View(data) R 데이터 탐색 str() 데이터 구조, 변수 개수, 변수명, 관찰치 개수, 관찰치의 미리보기 head() 상위 6개 ..

Data Analysis/R 2023.10.14

R / 2장 R 기초와 자료구조

산술연산자 +, -, *, /, ^ %% 나눗셈의 나머지 주석 #이후의 내용 함수 log(), sqrt(), max(), min(), abs(), factorial(), sin(), cos(), tan() 사용자가 직접 생성도 가능 변수명 영문자나 마침표로 시작 두 번째 글자부터는 영문자, 숫자, 마침표, 밑줄 가능 대소문자 구분 중간에 빈칸은 불가능 변수에 값 저장 < - 할당 연산자로 alt키와 - 누르면 자동입력 =, 5] 형태는 5보다 큰값들이 출력 행렬 matrix() 동일한 데이터 타입의 2차원 배열은 행렬로 표기 가능 기본 열방향으로 데이터 출력, byrow=TRUE시 행방향으로 데이터 출력 matrix(x, nrow=2) matrix(x, ncol=3) 배열 array() 동일한 데이터 타..

Data Analysis/R 2023.10.14

R / 1장 데이터분석과 R소개

빅데이터 특징 데이터 규모(Volume) 속도(Velocity) 다양성(Variety) 데이터 분석 기법 정형 데이터 통계학, 컴퓨터과학, 데이터마이닝, 기계학습 분야에 사용되는 자료분석 기법 기술통계 분석 데이터가 가진 특성 분석 수행 추론통계 분석 집단 간 비교, 차이, 분석 및 상호 관련성에 대해 분석 데이터마이닝 분석 대규모 데이터에 숨어 있는 패턴 발견 및 규칙 도출 비정형 데이터 텍스트 마이닝, 오피니언마이닝, 소셜 네트워크 분석 기법 등 데이터 시각화 정보 시각화, 과학적 시각화, 인포그래픽 기법

Data Analysis/R 2023.10.14