[수업] 빅데이터 시각화3
1) 통계적 기법(교안 ppt 104p)
1-1) 평균값 구하기
숫자 데이터를 개체로 올리면 기본으로 합계, 문자 데이터는 기본으로 개수가 된다.
1-1-1) 연월 기준으로 보기
페이지 추가하고 일평균으로 이름 변경하기
보고서 -> 시각화 -> 테이블 -> 값: 연월, 총이용자수, 총이용자수(백분율) -> 서식에 눈금에서 텍스트크기 10으로 변경
1-1-2) 일평균 기준으로 보기
각 월별로 일수를 계산해서 그 값을 나누어서 계산해준다.
DATEDIFF 함수를 사용해서 두 날짜 사이의 기간을 계산할 수 있다.
자전거를 누르고 새 측정값 누르기 ->
일일평균 = '자전거'[총이용자수] /
(DATEDIFF(Min('Calendar'[Date]), Max('Calendar'[Date]), Day) + 1)
새 측정값을 만들기 -> 만들어놓은 시각화 테이블에 일일평균 추가해주기
1-1-3) 일평균 만들기
보고서 바탕화면 클릭하기 -> 시각화 행렬 추가하기 -> 행: 자치구와 대여소명 열: 월, 값: 총이용자수로 지정해주기 -> 행이 두개면 드롭다운을 클릭해서 밑에 있는 행들을 확인할 수 있다. 다시 올릴 때는 드롭업
1-1-4) 행없이 열로만 진행하고 행으로 변경하기
보고서 바탕화면 클릭하기 -> 시각화 행렬 추가하기 -> 열: 요일(한글), 값: 총이용자수, 일일평균 -> 서식에 값에 행의 표시 설정하기(가로 방향으로 변경됨)
1-1-5) 위의 테이블 시각화하기
방금 만든 테이블을 복붙하기 -> 시각화에서 꺽은선형 누적막대(숫자의 갭이 크면 꺽은선형 밑 누적 새로막대를 사용하기) -> 열값: 총이용자수, 꺽은선형값: 일일평균 설정하기
2) 상관관계(교안 ppt 112p)
2-1) 자전거와 기온관의 관계를 비교하기
새로운 페이지 추가하고 이름은 상관관계라고 지정하기
복사한 폴더 -> 따릉이 -> 2020_기상정보.csv 열어보기 -> 일자만 가지고 사용하고 기온을 사용할 예정임을 확인 가능하다.
2-1-1) 데이터 전처리하기
리본메뉴 홈 -> 데이터 가져오기 -> 위에서 확인한 기상정보 데이터 가져오기 -> 데이터 변환 -> 일시를 열분할 -> 공백으로 주고 맨 왼쪽 기준으로 지정하기 -> 나눠진 일시를 일시, 시간으로 이름 변경하기 -> 닫기 적용하기
테이블 -> 일시는 yyyy-dd-mm으로 지정, 시간은 hh-mm으로 지정
2-1-2) 모델 관계 설정하기
모델 -> 자전거의 대여일시와 기상정보의 일시를 연결해준다. -> 일자가 여러개여서 다대다의 관계이니 그냥 확인을 눌러서 관계를 진행한다.
2-1-3) 시각화하기
보고서 -> 시각화에서 꺽은선형 누적세로막대 -> 축은 calendar의 date, 열: 총이용자수, 꺽은선형값: 기상정보의 기온을 평균으로 변경해주기 -> date의 옆에 더보기를 눌러서 그냥 date로 변경하기
2-2) 이용자와 평균관계
보고서 -> 시각화 분산형 차트 -> x축: 총이용자수, y축: 기온 옆에 더보기를 눌러서 요약 안함을 해주기
-> 확인해보면 그래프가 이상하니깐 둘의 위치를 변경해준다.
-> 분석에 추세선을 추가하기(추세선에 가깝게 모이면 관계가 높다는 것을 알 수 있다)
2-3) 상관계수
기온과 이용자수간의 얼마만큼 관계가 있는지 알아보기
리본메뉴 -> 모델링 -> 빠른 측정값(상관계수식은 지정이 안되어있으니 지정해주어야한다.)
-> 계산에서 상관계수를 지정하기 -> 범주: date(기간별로 보기위해서), x: 기온을 평균으로 변경하기, y축: 총이용자수 지정하고 확인하기 -> 긴 수식을 옆에 화살표로 닫아주기
-> 시각화 카드를 추가하기 ->필드: Date에 대한 평균 기온(°C)개 및 총이용자수 상관 관계 지정하기 -> 상관계수의 수를 확인이 가능하다.
2-4) 자치구별로 대여소수와 거치대수의 관계
새 페이지를 추가하기 -> 시각화 분산형차트 -> x축: 총대여소수, y축: 총거치대수, 범례: 자치구, 크기: 총이용자수 ->
원의 크기로 이용자수의 크기를 알 수 있음으로 총 3개의 변수를 비교할 수 있다.
대여소수가 높을수록 거치대수도 많고 이용자수도 많음을 알 수 있다.
3) 인구분석(교안 ppt 115p)
3-1) 데이터 확인하기
열린데이터광장 들어가기(https://data.seoul.go.kr/) -> 서울 생활인구 클릭하기해서 자료를 다운받을 수 있다.
복사한 폴더 -> 생활인구 폴더 -> 행정동코드_매핑정보_20200325.csv에서 행정동코드 sheet를 확인하기 -> 확인해보니 위의 타이틀이 2개로 이루어져서 하나를 지워주어야한다는 것을 알 수 있다.
3-2) 데이터 전처리하기
3-2-1) 행정동코드 전처리
Power BI -> 리본메뉴 변환 -> 첫 행을 머리글로 사용 -> 홈-> 상위행 제거에 1 입력
3-2-2) 내국인 폴더로 불러오기
데이터 변환에서 홈 -> 새 원본을 누르고 추가 들어가기 -> 폴더 선택 -> 복사한 폴더에서 생활인구 폴더에 내국인 폴더를 지정해주기 -> 데이터 통합 ->확인하면 데이터 불러오기
3-2-3) 열 피벗 해제하기
Source Name 제거해서 지우기 -> 기준일ID를 눌러서 데이터 형식을 텍스트로 변경-> 다시 날짜로 변경하기 -> 마지막 비여있는거 제거하고 남자, 여자열을 다 잡고 열 피벗 해제를 눌러준다.
3-2-4) 특성1 변경
특성1을 누르고 열 분할 -> 문자수로 열 분할에서 2로 지정하고 가능한 한 왼쪽 끝에서 한번으로 지정하기
3-2-5) 특성2 변경
특성2를 누르고 값 바꾸기 -> 생활인구, 세를 공백으로 변경해주기 -> 부터는 ~ 으로 변경하기 -> 이상을 ~으로 변경하기
3-2-6) 이름 변경하기
특성 1은 성별, 특정2는 연령대, 값은 인구로 이름을 변경해준다. 닫고 적용해준다.
3-3) 모델 관계 설정하기
테이블 -> 내국인 테이블에서 기준일 ID를 yyyy-mm-dd로 변경하기 -> 확인해보면 총생활인구수는 동일한 것을 확인할 수 있으니 인구를 보아야한다. 또한 일자별로 볼 때에는 일자별의 합을 24시간으로 나눠주어야하는데 나중에 처리 예정(한자리에 2시간있으면 인구가 2명으로 측정)
내국인에 행정동코드 -> 행정도코드에 행정부행정동코드 관계하기
3-4) Calendar 추가하기
새로운 테이블 생성하기 ->
Calendar = ADDCOLUMNS(
CALENDAR(DATE(2019,01,01), DATE(2021,12,31)),
"연도", Year([Date]),
"분기", Format([Date], "Q")&"분기",
"연월", Format([Date], "yyyy-mm"),
"월No", Month([Date]),
"월", Format([Date], "mm"),
"월(영문)", Format([Date], "mmm"),
"일", Format([Date], "dd"),
"요일(한글)", Format([Date], "aaa"),
"요일No", WEEKDAY([Date],2)
)
입력해서 새로운 테이블을 생성한다.
3-6) 모델 관계 설정하기
내국인의 기준일 id -> Calendar에 date 연결
3-7) 시각화
꺽은선 그래프 생성 -> 축: date(화살표를 눌러서 그냥 date로 변경하기), 값: 인구, 도구설명: 요일(한글)로 지정하기 -> 필터에서 여기에 데이터 필드 추가에 연도를 넣어서 2020년만 지정해서 그려주기
3-8) 이상확인
현재 만든 보고서가 인구수가 비이상적으로 큼을 알 수 있다.
테이블 -> 내국인 테이블에서 새 열 추가 ->
인구24 = [인구] / 24
인구를 24로 나눠주어주고 ,와 소수점 자리를 없애주기 -> 시각화를 확인하니 재대로 나옴을 알 수 있다.
시각화 꺽은선형 -> 축: 시간대구분, 값: 인구24 -> 서식에서 x축 범례형으로 변경하기 -> 그래프 필터로 들어가서 시간대구분으로 지정하고 오름차순으로 변경하기
3-9) 자치구별로 보기
시각화 슬라이서 -> 필드: date 만들기
시각화 슬라이서 -> 필드: 행정동코드에 시군구명 -> 오른쪽 화살표를 눌러서 드롭다운으로 변경해주기
구단위로 데이터의 패턴이 어떻게 달라지는지 확인할 수가 있다.
3-10) 동을 확인하기
시각화 -> 누적 가로 막대 -> 축: 행정동명, 값: 인구24 지정하기 -> 서식에서 x축 해제하고 y축 제목만 지우기
※ 서식 복사
서식을 다른 차트에 주기 위해서 서식 복사를 할 수 있다.
차트를 누르기 -> 리본메뉴 홈 -> 서식복사를 클릭하기 -> 다른 차트를 클릭하면 가능하다.
3-11) 동단위로 맵하기
시각화 도형맵 -> 색 채도: 인구24, 위치: 행정동명 지정하기 -> 서식에 들어가서 도형에서 맵 가져오기 -> 복사한 폴더에 map 폴더에 행정동 2020파일 불러오기
3-12) 행정동 코드 변경하기
행정동의 코드가 안맞아서 색이 들어오지않으니 변경해주기
행정동코드에서 테이블 들어가기 -> 새 열 ->
행정동코드 = [행자부행정동코드] * 100
로 변경해주기 -> 시각화에서 위에 도형맵에서 위치를 행정동코드로 변경하기
이제 색이 들어옴을 알 수 있는데 몇 개는 회색임을 알 수 있다. 회색인 것들은 행정동 코드가 계속해서 변화해서 맞지않아서 그런것이다.
3-13) 2020년과 2019년 비교하기
위에 처음 만든 꺽은선형을 새로운 페이지에 복사하기 -> 축: 일, 범례: 연도, 값: 인구24 -> 그래프 필터에서 일로 오름차순지정해주기 -> 서식에서 제목에서 연도별 비교로 제목 변경해주기