- 결측값
- 데이터를 수집하고 저장하는 과정에서 저장할 값을 얻지 못하는 경우 발생
- NA 는 원래 있어야 하는데 없는 값, NULL은 원래 없는 값으로 연산시 제외
- 결측값 처리
- 제거하거나 제외하고 분석
- 결측값을 추정하여 적당한 값으로 치환 후 분석
- 벡터에서 결측값 처리
- 결측값이 포함된 벡터는 정상적 계산 불가
- is.na()
- 벡터 내 각각의 값이 NA 인지 여부 확인 함수
- na.omit()
- NA 를 제거하고 $na.action 속성으로 NA 위치 제공
- 데이터프레임에서 결측값 처리
- complete.cases()
- 데이터프레임에서 NA를 포함하지 않는 완전한 행이면 true, 아니면 false 반환
- na.omit()
- 데이터프레임에서 NA를 포함한 모든 행을 제거 후 나머지 반환
- complete.cases()
- 특이값(outlier)
- 정상적이라고 생각되는 데이터의 분포 범위 밖에 위치하는 값, 이상치라고도 함
- 입력 오류에 의해 발생하거나 실제로 특이한 값일 수도 있다.
- 데이터 정렬
- order()
- 오름차순으로 정렬된 인덱스 반환
- split(데이터프레임, 범주형변수)
- 데이터 프레임을 범주형 변수의 값들로 분리
- subset(데이터프레임, 조건)
- 데이터프레임에서 조건에 맞는 행들을 추출
- order()
- 데이터 샘플링
- 데이터에서 임의의 수의 표본 데이터들을 추출
- set.seed()
- 실험의 재현성을 위해 동일한 임의의 값을 추출하기 위해 사용
- sample() 함수 호출 전에 먼저 실행
- 데이터 집계
- 2차원 데이터에서 그룹별 합계나 평균 등을 계산하는 작업
- tapply(양적벡터, 질적벡터, 함수명)
- by(양적벡터, 질적벡터, 함수명)
- aggregate(데이터프레임, by=list(이름=질적벡터), 함수명)
- 데이터 병합
- rbind(), cbind()
- 행과 열의 크기가 같아야함
- merge()
- 연관된 정보가 여러 파일에 흩어져 있는 경우 공통값을 가지는 열을 기준으로 병합
- rbind(), cbind()
- dplyr 패키지
- 데이터 전처리 작업에 많이 사용되는 패키지
- filter()
- 행 추출
- %>%: 파이프 연산자
- %in%: 매치 연산자
- select()
- 열 추출
- arrange()
- 정렬
- mutate()
- 새로운 변수 추가
- summarise()
- 통계치 산출
- group_by()
- 집단별 분할 추출
- 데이터 합치기
- bind_rows()
- 행 데이터 합치키
- bind_cols()
- 열 데이터 합치기
- join()
- 데이터 합치기
- bind_rows()
'Data Analysis > R' 카테고리의 다른 글
R / 7장 데이터 통계적 추론 1 (1) | 2023.12.15 |
---|---|
R / 6장 데이터 기술통계 (1) | 2023.12.15 |
R / 4장 R 프로그래밍 (1) | 2023.10.17 |
R / 3장 R 자료관리, 수집 (0) | 2023.10.14 |
R / 2장 R 기초와 자료구조 (0) | 2023.10.14 |