03. 구글 애널리틱스 샘플링 : 샘플링은 무엇인가? 피할 수 있는 방법은?

2020. 8. 22. 02:11Google Products/Google Analytics

영세한 내 블로그에서는 크게 당하지 않을 주제이지만, 실제로 비즈니스를 운영하다 보면, 특히 어느 규모가 있는 사이트를 운영하다 보면 샘플링에 직면하게 된다.

 

특히 내가 이 블로그에서 설명하고 있는 다양한 맞춤 기능들, 맞춤 측정 기준, 맞춤 측정 항목, 데이터 가져오기, 맞춤 보고서 생성, 세그먼트 적용 등 구글 애널리틱스의 고급 기능을 활용하는 도중에는 샘플링이 될 가능성이 무척 높다.

 

 

샘플링은 왜 되는 것인가?

 

구글 애널리틱스는 구글에서 제공하는 무료 웹로그 분석 도구이다. 구글 애널리틱스 프리미엄이라는 유료 서비스(무척 비싼)가 있긴 하지만, 기본적으로는 모든 유저에게 무료로 개방된다.

 

서비스는 무료이지만, 이 서비스를 유지하는데는 당연히 돈이 든다. 이 데이터를 저장하고 프로세싱하는 데에도 정말 무지막지한 리소스가 들어간다. 전 세계 80% 웹사이트 가량에 심겨 있다고 하니.. 여기에 들어가는 리소스가 어느 정도일지는 뭐.. 상상도 못 할 것 같다.

 

그러니 우선, 구글이 애널리틱스에 들어가는 리소스를 제한하는 차원에서 샘플링이 될 수 있다.

 

샘플링은 구글이 제공하는 제한된 리소스와 관련이 있다. 구글이 하나의 애널리틱스 계정에 부여하는 리소스의 총량은 정해져있는 것으로 보인다. 즉, 하루에 50,000 세션 발생하는 사이트나 50,000,000 세션이 발생하는 사이트나 한 계정이 활용할 수 있는 최대 리소스는 똑같다는 것이다.

 

이렇다보니, 만약 트래픽이 정말 많이 발생하는 계정에 만약 샘플링을 적용하지 않는다고 해보자. 그럴 경우, 데이터를 처리하는 데 있어서 무지막지하게 많은 시간이 들어갈 수 밖에 없다. 아마 세그먼트 하나 적용하는데 30초, 1분, 5분을 기다려야 할 수도 있는 것이다. 따라서 샘플링은 유저들이 구글 애널리틱스를 한정된 리소스 안에서 최대한 쾌적하게 쓸 수 있도록 하는 장치라고 생각하면 될 것 같다.

 

 

샘플링은 언제 되는 것인가?

일하다보면 샘플링 관련하여 가장 많이 들어 오는 질문 중 하나이다. 

 

 

다행히도 아니다.

 

어떠한 경우에라도, 구글 애널리틱스의 데이터는 전수로 쌓인다. 샘플링이 된다고 여기까지만 끊고 그 다음부터는 추적 안해! 하지는 않는다.

 

그리고 표준리포트들(소스/매체 리포트, 방문 페이지 리포트, 인구통계 리포트 등등 구글 애널리틱스가 기본적으로 좌측 패널에서 제공하는 리포트들)을 그냥 살펴볼 때는 샘플링이 되지 않는다.

 

샘플링이 되는 제1원칙은 구글 애널리티스가 유저의 요청에 따라서 데이터를 재처리해야 하는 순간에 발생한다.

 

표준 리포트들은 구글 애널리티스가 원래 처리하는대로 반복적으로 처리한다. 따라서 따로 유저들이 명령을 하지 않더라도 구글 애널리틱스는 이러한 데이터를 미리 계산해놓는다.

 

미리 계산해놓은 만큼, 유저가 해당 리포트를 클릭하였을 때 비교적 빠른 속도로 해당 리포트의 다양한 수치들을 불러올 수 있다.

 

하지만 만약, 그 리포트에서 '두 번째 측정 기준'을 적용한다고 해보자. 혹은 '세그먼트'를 적용하여 분석한다고 해보자.

 

두 번째 측정 기준이나 세그먼트를 적용하면, 기존에 있었던 세션들을 재계산하여 새로운 리포트를 생성하여야만 한다. 그리고 이러한 과정에서 아까 위에서 말한 것과 같이, 처리해야 하는 세션이 많은 경우 애널리틱스가 명령을 처리하는데 너무나도 많은 시간이 걸릴 수 있다.

 

구글 애널리틱스는 재처리해야 하는 세션의 숫자가 50만 세션 이상인 경우 데이터가 샘플링된다.

 

 

샘플링의 문제점

샘플링을 할 때는 그래도 나름 구글 애널리틱스에서 알고리즘적으로 통계적으로 큰 문제가 생기지 않을 선에서 샘플링을 진행하게 된다. 따라서 샘플링된 데이터를 기반으로 의사결정을 하더라도 크게 문제가 되지 않는 의사 결정을 할 수 있다.

 

즉, 데이터에 기반한 의사결정을 하는 데는 100% 정확하지는 않더라도 크게 다르지 않은 의사결정이 가능한 것이다.

 

하지만, 문제는 구글 애널리틱스 데이터를 기반으로, 혹은 웹데이터를 기반으로 KPI가 설정되어 있을 때 발생한다.

 

만약 내가 언론사 사장이라고 해보자. 그리고 내 밑에 있는 기자들에게 각 기자들이 쓴 기사들이 발생시킨 페이지뷰에 기반하여 월급을 준다고 하자. KPI의 특성상 그럼 그 페이지뷰 숫자는 정확해야 한다. 95% 신뢰수준으로 정확하다? 이런 말로 월급을 줄 수 없다. 나라면 나간다..

 

즉, 구글 애널리틱스의 데이터가 KPI와 직결될 수 있기 때문에 이러한 상황에서 데이터 샘플링은 여러 의미로 치명적일 수 있다.

 

 

샘플링을 줄이는 방법 / 피하는 방법

 

1. 기간 설정을 바꿔보자

> 앞서 말한 것과 같이 데이터 샘플링의 기준은 50만 세션이다. 만약 내 사이트가 하루 50만 세션을 발생시키지 않는다면? 데이터를 하루 단위로 끊어서 분석한다면 세그먼트를 적용하더라도, 두 번째 측정 기준을 적용하더라도, 맞춤 보고서를 만들더라도 샘플링이 되지 않는다. 다만, 매일매일 데이터를 분석해야 하는 수고로움은 있다.

 

2. 표준 리포트를 활용하자

> 역시 앞서 간략히 설명하였듯이, 표준 리포트는 세션 숫자가 얼마라도 샘플링이 되지 않는 전수 데이터를 보여준다. 따라서 KPI 등을 세팅할 때 최대한 표준 리포트 상에서 확인할 수 있는 데이터로 설정하는 것이 좋다.

 

3. 필터를 적용한 새로운 보기를 만들어보자

> 필터를 적용하여 데이터 수집 단계에서 특정 조건에 맞는 트래픽 정보만 모아올 수 있다. 이러한 세팅을 통하여 처음부터 세그먼트가 적용되어 있는 듯한 데이터를 보기를 통하여 따로 수집할 수 있다.

 

4. 바둑판 모양을 클릭해보자

 

> 바둑판 모양을 클릭해보면, 처리 속도를 향상시킬 것인지 정확도를 향상시킬 것인지 정할 수 있다. 여기에서 정확도 향상을 누르면 샘플링 모수를 더 많이 확보하여 샘플링의 정확도를 더 높인다. 재처리를 해야 하는 트래픽의 수치가 50만 세션 내외를 왔다 갔다 한다면 전수 데이터를 얻기 위하여 이 바둑판을 클릭해볼만 한다.

 

5. 구글 애널리틱스 프리미엄

> 구글 애널리틱스 프리미엄은 비싸다. 연간 계약이기에 사용료도 매년 지불하여야 한다. 하지만 이를 사용하면 나름의 신세계를 맛볼 수 있다. 가장 큰 변화 중에 하나는 1) 전수 데이터를 제공한다는 점이며 2) 이 전수 데이터에 대한 처리 속도를 보장한다는 것이다. 따라서 세그먼트를 아무리 걸더라도 맞춤 측정기준, 측정항목을 아무리 많이 활용하더라도 전수 데이터를 기반으로 분석할 수 있다.

 

또한 원한다면 구글 클라우드의 데이터베이스 언어인 Big Query를 활용하여 Raw Data까지 볼 수 있다. 쓴다면 새로운 세상이 열릴 법한, 뛰어난 상품이지만.. 비싸다. 아직 한국에서는 많은 기업들이 쓰고 있지는 않다. 다만, 차츰차츰 데이터에 대한 중요성이 높아지고 있는 이 시점에서 구글 애널리틱스에 대한 기업들의 관심도가 점점 올라가고 있기에 프리미엄을 쓰는 고객도 차츰 늘지 않을까 하는 희망을 가져본다.

 

 

 

 

 (출저: https://clicknote.tistory.com/23)