자격증/Microsoft Power BI Data Analyst (PL-300)

[PL-300] Microsoft Power BI PL-300 자격증 합격 후기 2 (개념정리 1편)

슈빔멘 2024. 11. 7. 21:22

 

 

Microsoft Certified: Power BI Data Analyst Associate - Certifications

Power BI를 사용하여 데이터를 모델링, 시각화 및 분석하기 위한 비즈니스 및 기술 요구 사항에 부합하는 다양한 방법과 모범 사례를 보여줍니다.

learn.microsoft.com

 

 

1편에서 기술했듯 MS에서는 자격시험 준비를 위한 공식 Learn 문서를 제공한다.

학습목차는 크게 다섯개이나 첫 단원은 소개 문서라 의미가 없고, 2단원부터 각각 아래 시험 출제 범위를 다루고 있다고 보면 된다.

 

0. Microsoft 데이터 분석 시작하기

1. Power BI를 사용하여 분석할 데이터 준비 - 데이터 준비(25-30%)
2. Power BI를 사용한 모델 데이터 - 데이터 모델링(25-30%)
3. Power BI 시각적 개체 및 보고서 빌드하기 - 데이터 시각화 및 분석(25-30%)
4.  Power BI에서 작업 영역 및 데이터 세트 관리 - 자산 배포 및 유지 관리(15-20%)

 

오늘은 소개단원과 실질적 첫 단원인 1. Power BI를 사용하여 분석할 데이터 준비

공부하며 정리했던 문서공유 + 시험 출제 중요도가 높은 소단원을 추천할 예정이다.

실제로 출제되었던 단원의 경우, MS Learn 문서 링크를 제목 옆에 달아두었으니 해당 단원은 꼭 읽어보길 추천

 


0. Microsoft 데이터 분석 시작

1. 데이터 분석에 대해 알아보기 

  • 데이터 분석 종류
    - 설명적 분석 : KPI, ROI 등
    - 진단적 분석 : 사건 발생 원인 규명
    - 예측적 분석 : 향후 발생할 상황 추측
    - 처방적 분석 : 목표 달성을 위해 수행할 작업 규명
    - 인지적 분석 : 기존 데이터 및 패턴에서 추론을 시도하고 기존 지식 기반을 바탕으로 결론을 도출한 다음, 이러한 결과를 지식 기반에 추가하여 향후 추론에 활용하는 자가 학습 피드백 루프
  • 관련 업무
    - 비즈니스 분석가 : 비즈니스와 긴밀하게 관련되어 있으며 시각화를 통해 제공된 데이터를 해석
    - 데이터 분석가
    - 데이터 엔지니어
    - 데이터 과학자
    - 데이터베이스 관리자

2. Power BI로 빌드 시작

  • Power BI 도구
    1) 데스크탑 : 로컬환경 어플리케이션
    2) 서비스 : 온라인 플랫폼
    3) 모바일 : 플랫폼 간 모바일 앱
  • 개발 흐름
    데이터 연결 → 변환 및 모델링 → 시각화 및 보고서 create → 게시 → 배포 및 관리
  • Power BI의 구성요소
    1) 의미 체계 모델 (semantic models)
    : 예약된 새로고침 / 온디맨드 새로고침
    2) 시각화 개체 (visualization, visual)
  • 작업영역 (workspace)

- 출제 중요도 : 매우 낮음

 

1. Power BI를 사용하여 분석할 데이터 준비

→ 파워 쿼리를 사용하여 다양한 데이터 원본에서 데이터를 추출하고 스토리지 모드 및 연결 유형을 선택하는 방법을 알아봅니다.

1. Power BI에서 데이터 가져오기

파일에서 가져오기

  • Flat File Location
    - 로컬
    - 비즈니스용 원드라이브
    - 개인 원드라이브
    - 셰어포인트
  • 연결 : Get Data - Excel
  • 탐색기 (Navigator) : 로드 및 변환
  • Source File을 변경해야하는 경우
    - 엑셀 파일의 경로가 변경되면, 연결경로를 업데이트 해야함
    - 방법 3가지 : 데이터 원본 설정, 쿼리 설정, 고급 편집기

- 출제 중요도 : 낮음 

소스 파일 변경방식 3가지에 대해서만 인지

 

관계형 데이터 원본에서 가져오기

  • 연결 : Get Data - SQL Server
  • Import와 DirectQuery가 있음
  • 1) Navigator에서 데이터 편집하여 로드하기
    2) SQL 쿼리 작성하여 가져오기
  • T-SQL
  • 데이터 원본 설정을 변경해야하는 경우
    - Transform Date - Data Source settings
    - 암호 업데이트, 보안 정책, 사용권한 변경 등

- 출제 중요도 : 낮음 

T-SQL을 사용한다는 것만 인지

 

매개 변수를 사용하여 동적 보고서 만들기

- 동적 보고서 : 개발자가 사용자 사양에 따라 데이터를 변경할 수 있는 보고서

 

1. 개별 값에 대한 동적 보고서

-. 일단 데이터셋 세팅 : sql 연결 함 → 고급옵션에서 쿼리 복붙 (스키마 명세서에서 nativevalue? 그거 복붙하는 것처럼) → 파워쿼리 편집기 열기
-. 매개변수 만들기 : 매개변수 선택 - 만들기 - 새 쿼리가 생김
-. 매개변수 편집 : 쿼리 창에서 매개변수의 값, 함수를 지정해주면 끝

 

2. 여러 값에 대한 동적 보고서

-. 엑셀 워크시트 만들기 : 데이터 가져오기 - 함수 만들어서 연결
-. 이하 생략

NoSQL 데이터베이스에서 데이터 가져오기

  • 연결 : Get data - more - Azure Cosmos DB
  • Json 가져오기 - 파워쿼리 편집기에서 편집 해주고 - 닫기 및 적용

온라인 서비스에서 데이터 가져오기

  • 연결 : Get data - online service - sharepoint online 목록 선택
  • 셰어포인트 가장 상위 url을 따서 넣어주면 하위의 폴더 및 파일에도 모두 접근 가능함

- 출제 중요도 : 낮음 

매개변수~NoSQL 까지는 개념보다 덤프 문제에서 나온 선지와 답을 인지하기

 

스토리지 모드 

1. Import (가져오기)

-. 정의 : 데이터를 Power BI 의미 체계 모델로 가져오는 방식, 데이터가 Power BI 파일에 저장되며 Power BI 보고서와 함께 게시됨

-. 데이터 새로고침 예약 가능, Power BI 서비스 기능

-. 단, 보안상의 이슈나 데이터 크기 문제로 보고서로 직접 가져오지 못할 수 있음.

 

2. DirectQuery (원본에 직접 연결)

-. 데이터 원본에 직접 연결하여, 데이터의 로컬 복사본을 저장하지 않는 방식

-. 원본에 바로 연결하기 때문에 데이터 크기가 커도 로드 시간이 느려지지 않는다

 

3. Dual (이중 모드)

-. Import와 DirectQuery를 섞어서 사용하는 방식인듯 함

 

- 출제 중요도 : 높음

각 모드의 차이점을 명확히 알고 있어야하며, 문서 외에도 덤프 선지에 익숙해져야함

 

Azure Analysis Services에서 데이터 가져오기

  • 기본적으로 데이터 테이블을 가져온다는 점에서 SQL Server 연결과 비슷함
    - 단, 모델에서 미리 계산열/측정값/관계설정을 할 수 있음
  • MDX, DAX를 사용하여 데이터 직접 쿼리
  • 가져오기 (Import)
    - 일반적인 데이터 연결
  • 라이브 연결 (Connect Live)
    - 모델에서 데이터를 새로 고치면, Power BI에서도 보고서가 즉시 업데이트

- 출제 중요도 : 낮음 

MDX를 활용하는 것만 인지

 

성능 문제 해결

  1. Query Folidng (쿼리 폴딩)

-. 새로고침 할 때 성능(속도) 향상됨, 다이렉트쿼리와 자동 호환됨
-. 파워쿼리 편집기 : group by, sort by, where, union all, join 등으로 시도

  1. Query Diagnose (쿼리 진단)

-. 쿼리 편집기, 파워쿼리 등에서 동작을 수행할 때 병목 현상이 발생하는 지점을 확인 할 수 있음

-. 파워쿼리 편집기 - Tools - Diagnose Step - 진단

 

  1. 그 밖의 방법

-. 데이터 원본에서 최대한 데이터 처리하기
-. 기본 SQL 쿼리 사용하기
-. 날짜를 결합한 열이 테이블에 있으면, 개별 열로 구분하기

 

- 출제 중요도 : 높음

개념 외에 덤프 문제의 선지를 많이 읽어보며 대응해야함

 

 

데이터 가져오기 오류 결합

  1. 쿼리 제한시간 만료
    - 데이터 너무 많이 가져올 때
  2. 테이블로 형식이 지정된 데이터를 찾을 수 없음
    - 걍 다시 가져오기
  3. 데이터를 찾을 수 없음
    - 파일 이동이나 이름변경 때문에 발생
    - 데이터 변환 - 쿼리 원본 - 위치 변경
  4. 데이터 형식 오류
    - 올바른 형식으로 바꿔서 SQL 문을 써보기

- 출제 중요도 : 높음

개념 외에 덤프 문제의 선지를 많이 읽어보며 대응해야함

 

 

2. Power BI에서 데이터 정리, 변환 및 로드

초기 데이터 형식 지정

  • Power Query 편집기 - Transform Data
  • 머리글 지정, 첫 행 고정, 열 이름 바꾸기, 열 제거
  • 열 피벗, 열 피벗 해제

- 출제 중요도 : 중간

열 피벗 내용 출제되었음

 

데이터 구조 단순화

  • 쿼리(식) 이름, 값, null 값 바꾸기
  • 중복 항목 제거
  • 테이블 / 열 / 값 명명 규칙 : 공백 대신 _, 일관된 용어 사용, 접두사/접미사 제거 등

- 출제 중요도 : 중간

단순화 방법 내용 출제되었음

 

여러 테이블을 하나로 합치는 방법

  1. 쿼리 추가(Append)
    - 데이터 행을 추가하는 방법임
    - 테이블 간 구조가 같아야 한다
  2. 쿼리 병합(Merge)
    - 데이터 열을 조인하는 방법임
    - Join 문과 같음

- 출제 중요도 : 중간

단순화 방법 내용 출제되었음

 

Power BI에서의 데이터 프로파일링

  • 데이터 탐색 : 모델 관계 등을 시각적으로 확인
    데이터 분포 및 통계 : 데이터 미리보기로 확인
    열 품질 관
    → 프로파일링은 한 번에 1000개까지만 가능함
  1. 열 분포
    - 고유 값 확인, 기본 키 식별
  2. 열 품질
    - 유효값/오류값/빈값 확인
  3. 열 프로필(프로파일)
    - 데이터 미리보기
    - 열 통계 → 데이터 샘플 분포, 선택한 열의 데이터 전체보기

- 출제 중요도 : 매우 높음

여러 개 출제되었음. 분포/품질/프로필의 차이점을 명확히 알고 있어야 함

 

고급편집기를 사용하여 M 코드 수정

  • Advanced Editor에서 M코드 언어로 편집할 수 있다는 뜻인듯

- 출제 중요도 : 매우 낮음