[PL-300] Microsoft Power BI PL-300 자격증 합격 후기 2 (개념정리 1편)
Microsoft Certified: Power BI Data Analyst Associate - Certifications
Power BI를 사용하여 데이터를 모델링, 시각화 및 분석하기 위한 비즈니스 및 기술 요구 사항에 부합하는 다양한 방법과 모범 사례를 보여줍니다.
learn.microsoft.com
1편에서 기술했듯 MS에서는 자격시험 준비를 위한 공식 Learn 문서를 제공한다.
학습목차는 크게 다섯개이나 첫 단원은 소개 문서라 의미가 없고, 2단원부터 각각 아래 시험 출제 범위를 다루고 있다고 보면 된다.
0. Microsoft 데이터 분석 시작하기
1. Power BI를 사용하여 분석할 데이터 준비 - 데이터 준비(25-30%)
2. Power BI를 사용한 모델 데이터 - 데이터 모델링(25-30%)
3. Power BI 시각적 개체 및 보고서 빌드하기 - 데이터 시각화 및 분석(25-30%)
4. Power BI에서 작업 영역 및 데이터 세트 관리 - 자산 배포 및 유지 관리(15-20%)
오늘은 소개단원과 실질적 첫 단원인 1. Power BI를 사용하여 분석할 데이터 준비
공부하며 정리했던 문서공유 + 시험 출제 중요도가 높은 소단원을 추천할 예정이다.
실제로 출제되었던 단원의 경우, MS Learn 문서 링크를 제목 옆에 달아두었으니 해당 단원은 꼭 읽어보길 추천
0. Microsoft 데이터 분석 시작
1. 데이터 분석에 대해 알아보기
- 데이터 분석 종류
- 설명적 분석 : KPI, ROI 등
- 진단적 분석 : 사건 발생 원인 규명
- 예측적 분석 : 향후 발생할 상황 추측
- 처방적 분석 : 목표 달성을 위해 수행할 작업 규명
- 인지적 분석 : 기존 데이터 및 패턴에서 추론을 시도하고 기존 지식 기반을 바탕으로 결론을 도출한 다음, 이러한 결과를 지식 기반에 추가하여 향후 추론에 활용하는 자가 학습 피드백 루프 - 관련 업무
- 비즈니스 분석가 : 비즈니스와 긴밀하게 관련되어 있으며 시각화를 통해 제공된 데이터를 해석
- 데이터 분석가
- 데이터 엔지니어
- 데이터 과학자
- 데이터베이스 관리자
2. Power BI로 빌드 시작
- Power BI 도구
1) 데스크탑 : 로컬환경 어플리케이션
2) 서비스 : 온라인 플랫폼
3) 모바일 : 플랫폼 간 모바일 앱 - 개발 흐름
데이터 연결 → 변환 및 모델링 → 시각화 및 보고서 create → 게시 → 배포 및 관리 - Power BI의 구성요소
1) 의미 체계 모델 (semantic models)
: 예약된 새로고침 / 온디맨드 새로고침
2) 시각화 개체 (visualization, visual) - 작업영역 (workspace)
- 출제 중요도 : 매우 낮음
1. Power BI를 사용하여 분석할 데이터 준비
→ 파워 쿼리를 사용하여 다양한 데이터 원본에서 데이터를 추출하고 스토리지 모드 및 연결 유형을 선택하는 방법을 알아봅니다.
1. Power BI에서 데이터 가져오기
파일에서 가져오기
- Flat File Location
- 로컬
- 비즈니스용 원드라이브
- 개인 원드라이브
- 셰어포인트 - 연결 : Get Data - Excel
- 탐색기 (Navigator) : 로드 및 변환
- Source File을 변경해야하는 경우
- 엑셀 파일의 경로가 변경되면, 연결경로를 업데이트 해야함
- 방법 3가지 : 데이터 원본 설정, 쿼리 설정, 고급 편집기
- 출제 중요도 : 낮음
소스 파일 변경방식 3가지에 대해서만 인지
관계형 데이터 원본에서 가져오기
- 연결 : Get Data - SQL Server
- Import와 DirectQuery가 있음
- 1) Navigator에서 데이터 편집하여 로드하기
2) SQL 쿼리 작성하여 가져오기 - T-SQL
- 데이터 원본 설정을 변경해야하는 경우
- Transform Date - Data Source settings
- 암호 업데이트, 보안 정책, 사용권한 변경 등
- 출제 중요도 : 낮음
T-SQL을 사용한다는 것만 인지
매개 변수를 사용하여 동적 보고서 만들기
- 동적 보고서 : 개발자가 사용자 사양에 따라 데이터를 변경할 수 있는 보고서
1. 개별 값에 대한 동적 보고서
-. 일단 데이터셋 세팅 : sql 연결 함 → 고급옵션에서 쿼리 복붙 (스키마 명세서에서 nativevalue? 그거 복붙하는 것처럼) → 파워쿼리 편집기 열기
-. 매개변수 만들기 : 매개변수 선택 - 만들기 - 새 쿼리가 생김
-. 매개변수 편집 : 쿼리 창에서 매개변수의 값, 함수를 지정해주면 끝
2. 여러 값에 대한 동적 보고서
-. 엑셀 워크시트 만들기 : 데이터 가져오기 - 함수 만들어서 연결
-. 이하 생략
NoSQL 데이터베이스에서 데이터 가져오기
- 연결 : Get data - more - Azure Cosmos DB
- Json 가져오기 - 파워쿼리 편집기에서 편집 해주고 - 닫기 및 적용
온라인 서비스에서 데이터 가져오기
- 연결 : Get data - online service - sharepoint online 목록 선택
- 셰어포인트 가장 상위 url을 따서 넣어주면 하위의 폴더 및 파일에도 모두 접근 가능함
- 출제 중요도 : 낮음
매개변수~NoSQL 까지는 개념보다 덤프 문제에서 나온 선지와 답을 인지하기
스토리지 모드
1. Import (가져오기)
-. 정의 : 데이터를 Power BI 의미 체계 모델로 가져오는 방식, 데이터가 Power BI 파일에 저장되며 Power BI 보고서와 함께 게시됨
-. 데이터 새로고침 예약 가능, Power BI 서비스 기능
-. 단, 보안상의 이슈나 데이터 크기 문제로 보고서로 직접 가져오지 못할 수 있음.
2. DirectQuery (원본에 직접 연결)
-. 데이터 원본에 직접 연결하여, 데이터의 로컬 복사본을 저장하지 않는 방식
-. 원본에 바로 연결하기 때문에 데이터 크기가 커도 로드 시간이 느려지지 않는다
3. Dual (이중 모드)
-. Import와 DirectQuery를 섞어서 사용하는 방식인듯 함
- 출제 중요도 : 높음
각 모드의 차이점을 명확히 알고 있어야하며, 문서 외에도 덤프 선지에 익숙해져야함
Azure Analysis Services에서 데이터 가져오기
- 기본적으로 데이터 테이블을 가져온다는 점에서 SQL Server 연결과 비슷함
- 단, 모델에서 미리 계산열/측정값/관계설정을 할 수 있음 - MDX, DAX를 사용하여 데이터 직접 쿼리
- 가져오기 (Import)
- 일반적인 데이터 연결 - 라이브 연결 (Connect Live)
- 모델에서 데이터를 새로 고치면, Power BI에서도 보고서가 즉시 업데이트
- 출제 중요도 : 낮음
MDX를 활용하는 것만 인지
성능 문제 해결
- Query Folidng (쿼리 폴딩)
-. 새로고침 할 때 성능(속도) 향상됨, 다이렉트쿼리와 자동 호환됨
-. 파워쿼리 편집기 : group by, sort by, where, union all, join 등으로 시도
- Query Diagnose (쿼리 진단)
-. 쿼리 편집기, 파워쿼리 등에서 동작을 수행할 때 병목 현상이 발생하는 지점을 확인 할 수 있음
-. 파워쿼리 편집기 - Tools - Diagnose Step - 진단
- 그 밖의 방법
-. 데이터 원본에서 최대한 데이터 처리하기
-. 기본 SQL 쿼리 사용하기
-. 날짜를 결합한 열이 테이블에 있으면, 개별 열로 구분하기
- 출제 중요도 : 높음
개념 외에 덤프 문제의 선지를 많이 읽어보며 대응해야함
데이터 가져오기 오류 결합
- 쿼리 제한시간 만료
- 데이터 너무 많이 가져올 때 - 테이블로 형식이 지정된 데이터를 찾을 수 없음
- 걍 다시 가져오기 - 데이터를 찾을 수 없음
- 파일 이동이나 이름변경 때문에 발생
- 데이터 변환 - 쿼리 원본 - 위치 변경 - 데이터 형식 오류
- 올바른 형식으로 바꿔서 SQL 문을 써보기
- 출제 중요도 : 높음
개념 외에 덤프 문제의 선지를 많이 읽어보며 대응해야함
2. Power BI에서 데이터 정리, 변환 및 로드
초기 데이터 형식 지정
- Power Query 편집기 - Transform Data
- 머리글 지정, 첫 행 고정, 열 이름 바꾸기, 열 제거
- 열 피벗, 열 피벗 해제
- 출제 중요도 : 중간
열 피벗 내용 출제되었음
데이터 구조 단순화
- 쿼리(식) 이름, 값, null 값 바꾸기
- 중복 항목 제거
- 테이블 / 열 / 값 명명 규칙 : 공백 대신 _, 일관된 용어 사용, 접두사/접미사 제거 등
- 출제 중요도 : 중간
단순화 방법 내용 출제되었음
여러 테이블을 하나로 합치는 방법
- 쿼리 추가(Append)
- 데이터 행을 추가하는 방법임
- 테이블 간 구조가 같아야 한다 - 쿼리 병합(Merge)
- 데이터 열을 조인하는 방법임
- Join 문과 같음
- 출제 중요도 : 중간
단순화 방법 내용 출제되었음
Power BI에서의 데이터 프로파일링
- 데이터 탐색 : 모델 관계 등을 시각적으로 확인
데이터 분포 및 통계 : 데이터 미리보기로 확인
열 품질 관
→ 프로파일링은 한 번에 1000개까지만 가능함
- 열 분포
- 고유 값 확인, 기본 키 식별 - 열 품질
- 유효값/오류값/빈값 확인 - 열 프로필(프로파일)
- 데이터 미리보기
- 열 통계 → 데이터 샘플 분포, 선택한 열의 데이터 전체보기
- 출제 중요도 : 매우 높음
여러 개 출제되었음. 분포/품질/프로필의 차이점을 명확히 알고 있어야 함
고급편집기를 사용하여 M 코드 수정
- Advanced Editor에서 M코드 언어로 편집할 수 있다는 뜻인듯
- 출제 중요도 : 매우 낮음