Data Analysis 22

R / 4장 R 프로그래밍

절차지향 프로그래밍 선택 구문 if(조건) 조건참문장 if (x>0) “hi” if(조건) { 조건참문장 } if (x>0) { “hi” } ifelse(조건, 조건참문장, 조건거짓문장) ifelse(x > 0, x ← 2*x, x ← -x) if(조건) { 조건참문장 } else { 조건거짓문장 } if(x>0) { x ← 2*x } else { x ← -x} if (조건1) { 조건1참문장 } else if (조건2) {조건2참문장} else { 모든조건거짓문장 } score 90 ) { grade 80) { grade 70) { grade 60) { grade 0) next } 함수 생성 args() 이용하여 함수에서 사용할 인수 확인 가능 함수명, 코드, 인수를 가지고 function() 함수로 ..

Data Analysis/R 2023.10.17

R / 3장 R 자료관리, 수집

데이터 생성 edit() 데이터 편집기 창 생성 data ← data.frame() data ← edit(data) 데이터 보기 View() CSV 파일 write.csv() write.csv(df, file=”df.csv”) read.csv() 변수명이 없는 csv 파일 불러올 때 header=F 현재 작업폴더 확인시 getwd() RDS 파일 R 전용 데이터 파일 saveRDS(), readRDS() R 데이터 불러오기 작업 영역 설정 setwd(”C:\\등등”) data ← read.csv(”파일이름”, header=F, fileEncoding=”EUC-KR”) View(data) R 데이터 탐색 str() 데이터 구조, 변수 개수, 변수명, 관찰치 개수, 관찰치의 미리보기 head() 상위 6개 ..

Data Analysis/R 2023.10.14

R / 2장 R 기초와 자료구조

산술연산자 +, -, *, /, ^ %% 나눗셈의 나머지 주석 #이후의 내용 함수 log(), sqrt(), max(), min(), abs(), factorial(), sin(), cos(), tan() 사용자가 직접 생성도 가능 변수명 영문자나 마침표로 시작 두 번째 글자부터는 영문자, 숫자, 마침표, 밑줄 가능 대소문자 구분 중간에 빈칸은 불가능 변수에 값 저장 < - 할당 연산자로 alt키와 - 누르면 자동입력 =, 5] 형태는 5보다 큰값들이 출력 행렬 matrix() 동일한 데이터 타입의 2차원 배열은 행렬로 표기 가능 기본 열방향으로 데이터 출력, byrow=TRUE시 행방향으로 데이터 출력 matrix(x, nrow=2) matrix(x, ncol=3) 배열 array() 동일한 데이터 타..

Data Analysis/R 2023.10.14

R / 1장 데이터분석과 R소개

빅데이터 특징 데이터 규모(Volume) 속도(Velocity) 다양성(Variety) 데이터 분석 기법 정형 데이터 통계학, 컴퓨터과학, 데이터마이닝, 기계학습 분야에 사용되는 자료분석 기법 기술통계 분석 데이터가 가진 특성 분석 수행 추론통계 분석 집단 간 비교, 차이, 분석 및 상호 관련성에 대해 분석 데이터마이닝 분석 대규모 데이터에 숨어 있는 패턴 발견 및 규칙 도출 비정형 데이터 텍스트 마이닝, 오피니언마이닝, 소셜 네트워크 분석 기법 등 데이터 시각화 정보 시각화, 과학적 시각화, 인포그래픽 기법

Data Analysis/R 2023.10.14

혼자 공부하는 머신러닝+딥러닝 / 혼공 학습단 회고

짧다면 짧고, 길다면 길었던 혼공 학습단이 끝났다. 내가 이번 혼공 학습단을 하며 가장 원했던 것은 저녁에도 공부를 하는 삶이었다. 나의 큰 인생 목표 중 하나가 죽을 때까지 공부하기인데, 생각보다 저녁에 책상에 앉아서 혼자 공부하기가 참 어렵다.. 마침 혼공 학습단을 알게 되어서 혼자 공부하는 루틴을 갖는 데 도움이 되겠다 하고 신청했다. 눈에 보이는 강제는 없지만 약간의 내 맘속에서 신경쓰이는 덩어리가 하나 있는것만으로도 자연스럽게 책상에 앉게 되었다.. 그리고 가끔씩 날라왔던 간식 기프티콘도 뿌듯함을 느끼게 해줬다. 그리고 개념을 읽고, 코드를 작성하고, 특히 마지막 정리하면서 블로그에 글 올리는 게 도움이 많이 되었다. 개념을 더 쉽게, 잘 보이게 쓰고 싶었지만 생각보다 남이 잘 이해하도록 글 쓰..

혼자 공부하는 머신러닝+딥러닝 / Chapter 07 딥러닝을 시작합니다

Chapter 07-1 인공 신경망 - 인공 신경망 (artificial neural network, ANN) 뉴런에서 영감 받은 머신러닝 알고리즘 이미지, 음성, 텍스트 분야에서 뛰어난 성능을 발휘하고 딥러닝이라고도 한다. 케라스이 Sequential 클래스 사용 출력층(output layer): z값을 계산하고 이를 바탕으로 클래스를 예측, 신경망의 최종 값을 만든다. 뉴런(neuron): z값을 계산하는 단위, 유닛이라고 부르기도 한다. 입력층: x값이고 픽셀값 자체이기 때문에 특별한 계산을 수행하지 않는다. 밀집층(dense layer): 가장 기본이 되는 층이며 픽셀과 뉴런이 모두 연결된 선이다. 완전 연결층이라고도 부른다. - 텐서플로우 구글이 공개한 딥러닝 라이브러리 CPU와 GPU를 사용해..

혼자 공부하는 머신러닝+딥러닝 / Chapter 06 비지도 학습

Chapter 06-1 군집 알고리즘 - 비지도 학습(unsupervised learning) 타깃이 없을 때 사용하는 머신러닝 알고리즘, 사람이 가르쳐 주지 않아도 데이터에 있는 무언가를 학습한다. - 군집(clustering) 비슷한 샘플끼리 그룹으로 모으는 작업, 대표적이 비지도 학습 작업 중 하나이다. 군집 알고리즘에서 만든 그룹을 클러스터(cluster)라고 한다. - 함수 모음 subplots(): 여러 개의 그래프를 배열처럼 쌓을 수 있는 함수 mean(): 평균값을 계산하는 메서드 abs(): 절대값을 계산하는 함수 코랩 실습 화면 import numpy as np import matplotlib.pyplot as plt fruits = np.load('fruits_300.npy') pri..

혼자 공부하는 머신러닝+딥러닝 / Chapter 05 트리 알고리즘

Chapter 05-1 결정 트리 - 결정 트리(Decision Tree) 예, 아니오에 대한 질문을 이어가면서 정답을 찾아 학습하는 알고리즘 사이킷런의 DecisionTreeClassifier 클래스 사용 특성값의 스케일은 결정 트리 알고리즘에 영향을 미치지 않기 때문에 표준화 전처리를 할 필요없다. 특성 중요도(불순도를 감소하는데 기여한 정도)를 활용하면 결정 트리 모델을 특성 선택에 활용할 수 있다. 불순도: 결정 트리가 최적의 질문을 찾기 위한 기준 지니 불순도(Gini impuricity)는 1 - (음성 클래스 비율의 제곱 + 양성 클래스 비율의 제곱)으로 구한다. 지니 불순도가 0이라면 순수 노드라고 부른다. 결정 트리 모델은 부모 노드와 자식 노드의 불순도 차이(정보 이득, informat..

혼자 공부하는 머신러닝+딥러닝 / Chapter 04 다양한 분류 알고리즘

Chapter 04-1 로지스틱 회귀 데이터프레임(dataframe): 판다스에서 제공하는 2차원 표 형식의 데이터 구조 데이터프레임에서 열을 선택하는 방법은 원하는 열을 리스트로 나열한다. 다중 분류(multi-class classification): 타깃 데이터에 2개 이상의 클래스가 포함된 문제 정렬된 타깃값은 classes_ 속성에 저장되어 있다. - 함수 모음 unique(): 열에서 고유한 값을 추출하는 함수 proba(): 클래스별 확률값을 반환하는 메서드 코랩 실습 화면 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler fr..

혼자 공부하는 머신러닝+딥러닝 / Chapter 03 회귀 알고리즘과 모델 규제

Chapter 03-1 k-최근접 이웃 회귀 - 회귀 (regression) 임의의 어떤 숫자를 예측하는 문제, 정해진 클래스가 없고 임의의 수치를 출력한다. ex) 경제 성장률 예측, 배달이 도착할 시간 예측 - k-최근접 이웃 회귀 가장 가까운 샘플 k개를 선택하고 해당 수치들의 평균을 구함. - 결정계수, R^2 (coefficient of determination) 회귀의 평가 점수 각 샘플의 타깃과 예측한 값의 차이를 제곱하여 더하고 타깃과 타깃 평균의 차이를 제곱하여 더한 값으로 나눈다. 예측이 타깃에 아주 가까워지면 1에 가까운 값이 된다. 코랩 실습 화면 import numpy as np import matplotlib.pyplot as plt from sklearn.model_select..

728x90