Data Analysis/R

R / 5장 데이터 전처리

Bay Im 2023. 10. 17. 01:25
  • 결측값
    • 데이터를 수집하고 저장하는 과정에서 저장할 값을 얻지 못하는 경우 발생
    • NA 는 원래 있어야 하는데 없는 값, NULL은 원래 없는 값으로 연산시 제외
    • 결측값 처리
      • 제거하거나 제외하고 분석
      • 결측값을 추정하여 적당한 값으로 치환 후 분석

 

  • 벡터에서 결측값 처리
    • 결측값이 포함된 벡터는 정상적 계산 불가
    • is.na()
      • 벡터 내 각각의 값이 NA 인지 여부 확인 함수
    • na.omit()
      • NA 를 제거하고 $na.action 속성으로 NA 위치 제공

 

  • 데이터프레임에서 결측값 처리
    • complete.cases()
      • 데이터프레임에서 NA를 포함하지 않는 완전한 행이면 true, 아니면 false 반환
    • na.omit()
      • 데이터프레임에서 NA를 포함한 모든 행을 제거 후 나머지 반환

 

  • 특이값(outlier)
    • 정상적이라고 생각되는 데이터의 분포 범위 밖에 위치하는 값, 이상치라고도 함
    • 입력 오류에 의해 발생하거나 실제로 특이한 값일 수도 있다.

 

  • 데이터 정렬
    • order()
      • 오름차순으로 정렬된 인덱스 반환
    • split(데이터프레임, 범주형변수)
      • 데이터 프레임을 범주형 변수의 값들로 분리
    • subset(데이터프레임, 조건)
      • 데이터프레임에서 조건에 맞는 행들을 추출

 

  • 데이터 샘플링
    • 데이터에서 임의의 수의 표본 데이터들을 추출
    • set.seed()
      • 실험의 재현성을 위해 동일한 임의의 값을 추출하기 위해 사용
      • sample() 함수 호출 전에 먼저 실행

 

  • 데이터 집계
    • 2차원 데이터에서 그룹별 합계나 평균 등을 계산하는 작업
    • tapply(양적벡터, 질적벡터, 함수명)
    • by(양적벡터, 질적벡터, 함수명)
    • aggregate(데이터프레임, by=list(이름=질적벡터), 함수명)

 

  • 데이터 병합
    • rbind(), cbind()
      • 행과 열의 크기가 같아야함
    • merge()
      • 연관된 정보가 여러 파일에 흩어져 있는 경우 공통값을 가지는 열을 기준으로 병합

 

  • dplyr 패키지
    • 데이터 전처리 작업에 많이 사용되는 패키지
    • filter()
      • 행 추출
      • %>%: 파이프 연산자
      • %in%: 매치 연산자
    • select()
      • 열 추출
    • arrange()
      • 정렬
    • mutate()
      • 새로운 변수 추가
    • summarise()
      • 통계치 산출
    • group_by()
      • 집단별 분할 추출
    • 데이터 합치기
      • bind_rows()
        • 행 데이터 합치키
      • bind_cols()
        • 열 데이터 합치기
      • join()
        • 데이터 합치기

'Data Analysis > R' 카테고리의 다른 글

R / 7장 데이터 통계적 추론 1  (1) 2023.12.15
R / 6장 데이터 기술통계  (1) 2023.12.15
R / 4장 R 프로그래밍  (1) 2023.10.17
R / 3장 R 자료관리, 수집  (0) 2023.10.14
R / 2장 R 기초와 자료구조  (0) 2023.10.14