EMDI는 지금도 개발중

R데이터분석 : 데이터 파악하기 본문

IT/R 데이터분석

R데이터분석 : 데이터 파악하기

EMDI 2019. 9. 16. 17:03

1. 데이터를 파악할 때 쓰는 함수들

head() : 데이터 앞부분 출력

ex) head(df_exam) - 앞에서부터 6행까지 출력

ex) head(df_exam, 10) - 앞에서부터 10행까지 출력

 

tail() : 데이터 뒷부분 출력

ex) tail(df_exam) - 뒤에서부터 6행까지 출력

ex) tail(df_exam, 10) - 뒤에서부터 10행까지 출력

 

View() : 뷰어 창에서 데이터 확인

* 단 view()로 입력하면 Could not find function "view"라고 나온다 꼭 V 대문자

 

dim() : 데이터 차원 출력

데이터가 몇 행, 몇 열로 구성되어있는지 확인할 수 있는 함수

결과값 : 11 5

 

str() : 데이터 속성 출력

데이터에 들어 있는 변수들의 속성을 보여준다.

 

summary() : 요약 통계량 출력

출력값 통계량 설명
Min 최솟값 가장 작은 값
1st Qu 1사분위수 하위 25% 지점에 위치하는 값
Median 중앙값 중앙에 위치하는 값
Mean 평균 모든 값을 더해 값의 갯수로 나눈 값
3rd Qu 3사분위수 하위 75% 지점에 위치하는 값
Max 최대값 가장 큰 값

 

# ggplot2의 mpg 데이터를 데이터 프레임 형태로 불러오기

mpg <- as.data.frame(ggplot2::mpg)

* :: 더블 콜론을 이용하면 특정 패키지에 들어 있는 함수나 데이터를 지정할 수 있습니다.

변수명 내용
manufacturer 제조 회사
displ 배기량
cyl 실린더 개수
drv 구동 방식
hwy 고속도로 연비
class 자동차 종류
model 자동차 모델명
year 생산연도
trans 변속기 종류
cty 도시 연비
fl 연료 종류

 

2. 변수명 바꾸기

* 변수명 바꾸는 것은 dplyr 패키지에 있는 rename()을 이용

install.packages("dplyr");
library(dplyr);

 

# df_new 데이터 프레임의 var1, var2 2개의 변수 중 var2를 v2로 바꾸기

* rename( 데이터 프레임명, 새변수명 = 기존변수명)

** 궁금한 점 : rename()을 사용하면 그대로 해당 상태를 저장(commit)할 줄 알았는데 다시 출력하면 원상태로 돌아와 있음. 왜그런지는 이해가 안감.

 

3. 파생변수 만들기

1) 합계

df$var_sum <- df$var1 + df$var2;

데이터프레임명$새로운변수명 <- 데이터프레임명$기존변수1 + 데이터프레임명$기존변수2;

2) 평균

df$var_mean <- (df$var1 + df$var2)/2;

 

3) 조건문함수 - ifelse() *** 중요

ifelse(df$var_sum >= 7, "pass", "fail")

ifelse(조건, true, false)

만약 var_sum의 값이 7이상이면 pass, 그렇지 않으면  fail을 부여하도록 조건문을 만들었습니다.

이 결과값을 result 변수에다가 넣어보도록 하겠습니다.

 

4) 빈도표로 합격 판정 수 살펴보기

table(df$result);

 

5) 막대 그래프로 빈도 표현하기

library(ggplot2);
qplot(df$result);

 

6) 중첩 조건문 *** 중요

아까 전 조건문에서는 pass와 fail 둘 중 하나로 분류하는 변수를 만들었습니다.

이번에는 등급을 매겨서 분류하는 변수를 만들어보도록 하겠습니다.

테이블 프레임 df에 var1 변수가 8이상이면 A, 4~7은 B, 4미만은 C로 분류하겠습니다.

df$grade <- ifelse(df$var1 >=8, "A",
                   ifelse(df$var1 >= 4, "B", "C"));

 

Comments