Back to top

5개의 사례로 확인한 GA4와 GA UA(GA3)의 데이터 수 차이

스튜디오엠엑스는 다양한 클라이언트의 광고 매체 데이터와 GA4 데이터를 결합하여 데이터를 해석한다.

그래서 GA4가 본격적으로 쓰이기 시작한 뒤로 GA UA(Universal Analytics, GA3) 와의 데이터 차이에 대해 많은 궁금증이 있었고

같은 구글 애널리틱스 프로덕트이니 둘이 비슷한 데이터 결과가 나올지 아니면 이전의 데이터를 참고하기 어려울 정도일지 확인할 필요가 있었다.

이번에 시간을 내서 5개 클라이언트의 자료를 비교했고 결론을 잠정적으로 낼 수 있었다.

결론은 아래와 같다.

*GA UA(GA3) 를 앞으로 계속 표현할 건데 부르는 명칭이 다 달라서 글의 어디부터 읽더라도 이해를 시키기 위함으로 이해 부탁드립니다.

  1. 사용자와 세션 데이터는 GA UA(GA3)와 GA4 가 1% 정도 차이만 발생한다. 
  2. 고객의 주요 행동을 측정하기 위해 GA UA(GA3)의 ‘목표 완료수(Goal Completion)’와 GA4의 ‘이벤트수’를 비교하긴 매우 어렵다. 업종에 따라 다른데 GA4가 훨씬 많이 잡는다. 

위 결론들에 대한 구체적 내용을 데이터와 함께 설명하겠다.


들어가며,
[ GA4 는 과도기에 있고 부족하거나 다양한 오류들이 많다. ]

많은 사람들이 GA4 로의 변화에서 기대감을 갖고 있지만 우리(스튜디오엠엑스)는 혼란과 두려움으로 GA4를 마주하고 있다.

GA4는 과도기에서 혼란을 겪고 있고 이유를 알 수 없는 에러들이 많다.

1. 제일 처음 접했던 에러는 보고서 대시보드가 작동하지 않는 에러였다. 

보고서를 생성할 때 보고서에서 사용할 기준과 항목들을 가져오는 절차가 있다.

여기서 선택하고 불러오기를 눌러도 아무리 해도 불러와지지 않는 것이다.

그런데 예전에 다른 곳 작업했을 때는 분명히 됐다.

다른 사람이 작업하는 것도 분명히 됐는데 이상하게 그 컴퓨터로 내가 작업하니 안되는 것이다.

똑같은 컴퓨터를 가지고 A가 하면 되는데 바로 다음에 내가 하면 안되니 미칠 노릇이었다.

구글애널리틱스에 상황과 OS 정보, 크롬 확장프로그램, 네트워크 환경 들을 모조리 캡쳐해서 보내고 작업하는 방식을 영상 녹화해서 보냈다.

그랬더니 자기들도 모르겠어서 상위 부서로 이관한다 하더라.

그러고 수일 뒤 돌아온 답변이 항목들 가져올 때 체크박스 네모칸 안을 안 집고 텍스트를 클릭하거나 한 경우 체크는 되는데

불러와지지 않는 에러였다는 것이다.

체크박스 안의 네모를 누르지 않고 옆의 공간이나 텍스트를 클릭해도 체크는 되었으니 당연히 불러와질 것으로 생각되었고

그렇기 때문에 체크박스를 누르는 습관이 있는 A가 작업하면 되고
아무거나 마우스 빨리 도착하는데로 클릭하는 내가 작업하면 안되는 것이었다.

지금은 이 문제가 개발팀에게 전달되어 해결되었다.

2. 그 다음 접한 에러는 API 와 대시보드 상의 스펙 차이 문제다. 

앱 분석환경의 구축과 앱 마케팅 등의 활용에 아주 유용하게 쓰이는 파이어베이스의 데이터를 구글애널리틱스의 GA4 에서 연동하여 확인 가능함에 따라

GA4는 세션에 대해 집중하기 보다는 사용자와 사용자가 한 행동(이벤트)에 집중하기 시작했다.

소개팅 앱에서 한 페이지에서 이성을 고르는 화면에 있다거나 채팅을 한다고 한시간 동안 한 페이지에 가만히 있는 사람을

GA UA(GA3) 기준에서는 이탈 했다고 잘못 판단할 것이다.

GA4는 앱 환경 분석에 포커스가 맞춰지며 세션시간이나 이탈에 대해 집중하지 않기로 했다.

그 중 지금 논할 것은 세션시간에 대한 것인데 GA4의 API 스펙엔 ‘averageSessionDuration’ 이라는 세션시간 항목이 존재한다.

그런데 GA4 대시보드엔 해당 항목이 없으며, 유사한 개념이 ‘Average engagement time per session(세션당 평균 참여 시간)’이다.

averageSessionDuration은 세션당 평균 참여 시간과는 전혀 다른 개념이고

averageSessionDuration을 GA UA(GA3) 의 데이터와 비교한다면 averageSessionDuration 의 값이 2배 가까이 나오며

데이터의 신뢰도와 사용 가능성에 대해 큰 문제가 생겼다.

세션시간을 기준으로 데이터를 분석하는 템플릿을 만들고 있던 나로서는 대혼란이었다.

3. 가장 큰 에러는 현시점에서 판단한 과거의 데이터가 어제 다르고 오늘 다른 문제다. 

GA4 대시보드 보고서에선 당일의 데이터는 확인이 불가하다.

하지만 API에선 당일 데이터가 접근가능하다.

때문에 즉각적 데이터 확인을 위해 우리는 API 데이터를

필요한대로 스프레드시트에 반영해서 확인하고 있다.

구글애널리틱스는 문서를 통해 데이터가 전부 처리되는데 24~48시간이 발생한다고 얘기한다.


(https://support.google.com/analytics/answer/9333790?hl=ko)

하지만 문서와는 다르게,

7일 이상 된 데이터도 수치가 1% 등 기존 약간씩 어긋나 있는 것들이 아주 많이 경험해서 데이터 신뢰도에 대한 문제가 존재했다.

더하여 하루라도 데이터를 빨리 보려고 API로 당일 데이터까지 활용하는 우리는 더 큰 데이터 차이를 겪을 수 밖에 없었다.

심지어 대시보드에선 로드할 때 데이터가 뭔가 이상하길래 새로고침을 해보니 단순히 로딩 에러까지 있던 경우까지 많았다.


이런 경험들을 통해 GA4를 얼마나 믿어야 하는가에 대한 근본적 믿음이 흔들리기 시작했다.

그래서 나름 신뢰하고 있던 GA UA(GA3) 의 데이터와 데이터를 비교하는 작업을 여러 업체에 대해 진행했고

그 결론이 아래처럼 나왔다.

  1. 사용자와 세션 데이터는 GA UA(GA3)와 GA4 가 1% 정도 차이만 발생한다. 
  2. 고객의 주요 행동을 측정하기 위해 GA UA(GA3)의 ‘목표 완료수(Goal Completion)’와 GA4의 ‘이벤트수’를 비교하긴 매우 어렵다. 업종에 따라 다른데 GA4가 훨씬 많이 잡는다. 

위 결론을 얻어낸 과정을 5가지 사례로 얘기해보겠다.

[ 데이터 기준 및 분석 방법 ]

데이터 기간 : 2022-09-14 ~ 2022-09-20 (7일)

데이터 기준 : GAUA와 GA4가 구글태그매니저를 통해 똑같은 트리거로 설정된 5개 업체. 5개 업체는 최대한 각각 다른 CMS솔루션(카페24, 고도몰, 자체제작 등) 을 사용하는 환경

분석 방법 : 동일한 기준에 대해 [사용자, 세션, 세션시간, 이탈률(GA4는 ‘100% – 참여율’ 로 이탈률 정의), GA UA(GA3)의 목표(Goal 완료수) 와 동일한 상황의 GA4 이벤트 수 ] 비교

[ 업체1 ]

리드를 만들어내야 하는 서비스형 사이트

솔루션 자체제작

1. 사용자, 세션

2% 내의 차이로 큰 차이가 없으나 GA4 가 모든 날에서 더 많은 수량이 확인됨.

2. 세션시간

GA4의 경우 세션시간 데이터가 대시보드상에는 존재하지 않고 API에만 존재함.
아래 표의 GA4 세션시간은 API에 있는 ‘averageSessionDuration’ 을 세션수로 나눔.

GA4는 세션시간 정보가 신뢰도가 떨어지는 것 같음. 

GA4 대시보드에 존재하는 ‘세션당 평균 참여 시간’ 항목은 비교 대상이 없어 테스트 하지 않음.

3. 이탈률

이탈률은 GA UA(GA3) 와 GA4 의 기준이 다름.

이탈률 정의, 아래 다른 업체의 이탈률 설명에는 해당 설명 없음.

GA UA(GA3) 

전체 세션 중 상호작용이 2회 이상 발생하지 않은 세션의 비율

상호작용이란? 기본적으론 페이지 뷰 이벤트 발생의 상황. 하지만 GA UA(GA3) 이벤트에서 상호작용이라고 정의한 경우에는 상호작용으로 판단될 수 있으며,
이런 이벤트의 예시로 한 페이지 내에서 양식 제출 등 주요한 전환행동을 한 경우를 생각할 수 있음.
또는 페이지 내의 주요한 버튼 클릭 등을 상호작용이라 정의하여 페이지를 이동하지 않고도 이탈하였다 판단 가능.

더하여 GA UA (GA3) 에선 매일 자정(00시 00분)마다 세션이 갱신되므로 상호작용을 세션시간(일반적으로 30분) 내에 하더라도 그 사이 시간에 자정이 존재하는 경우
이를 이탈으로 판단하는 경우가 있음.

GA4

전체 세션 중 참여세션이 아닌 세션의 비율, 참여율의 역수

참여세션이란?

  • 10초 이상 체류한 경우(시간은 10~60초 까지 10초 단위로 설정 가능)
  • 이벤트가 2회 이상 발생한 경우. 페이지를 이동한 경우를 포함함

위와같이
이탈률의 정의가 다르기에 이탈률도 아주 크게 다름.

GA4는 이탈률을 20% 정도 적게 잡음.

4. 전환율

GA UA(GA3)는 전환을 Goal Completion(전환 완료수)로 잡지만 GA4는 이벤트 달성 수를 전환수로 잡는 차이가 있음.

GA4는 이벤트 달성 수로 잡기에 세션당 반복된 행동을 해도 전환으로 측정하는 차이로 인해 전환수 차이가 큰 상황.

양식제출완료 전환의 뎁스를 4가지로 나누어봐도 모든 경우의 모든날에 GA4 가 전환수가 많음.

따라서 GA UA(GA3) 에서 GA4 로 이관할 때 전환의 기준을 동일하게 적용할 수 없는 것을 확인.

[ 업체2 ]

카페24 쇼핑몰 솔루션

1. 사용자, 세션

카페24의 경우 사용자와 세션 데이터가 GA4에서 13% 더 적게 잡힌 것을 확인할 수 있었으며,

이 데이터를 보며 GA4가 데이터를 덜 잡는다고 느끼기보단 다른 업체의 데이터나 이전의 해석을 고려할 때

이는 데이터 해석 관련 트러블이 생기는 GDPR과 GA4의 데이터 구조를 따졌을 때
그리고 중요하게는 작성자의 경험상 GA4 데이터가 더 정확하다고 느낌.

2. 이탈률

이탈률은 카페24 다른 업체들에게서도 비슷하게 35% 정도 감소하였으며, 다른 솔루션들과 비교할 때도

36%정도 이탈률이 덜 잡힘. 

3. 전환율

GA UA(GA3), GA4 모두 동일한 Transaction(거래수) 기준으로 봤을 때 GA4가 카페24에선 전환을 10% 더 잡는 경향이 확인됨.

이는 데이터 기준 상의 차이이며

위의 카페24 환경에서 사용자, 세션이 데이터를 10% 더 집계하고

거래 데이터가 10% 더 잡히는 것을 고려할 때

GA UA(GA3)와 GA4 의 세션, 사용자당 전환 성과를 같은 기준으로 비교한다면

20% 이상 차이가 발생할 것을 의미하며

같은 맥락에서 데이터 해석이 불가함을 의미함.

[ 업체3 ]

고도몰 쇼핑몰 솔루션

사용자, 세션

별 차이가 없음.

이탈률 및 전환율은 다른 솔루션과 비슷.

업체 4와 5의 경우는 특별한 다른 점이 없어서 생략.

따라서 위 데이터를 모두 종합할 때,

  1. 사용자와 세션 데이터는 GA UA(GA3)와 GA4 가 1% 정도 차이만 발생한다. 
  2. 고객의 주요 행동을 측정하기 위해 GA UA(GA3)의 ‘목표 완료수(Goal Completion)’와 GA4의 ‘이벤트수’를 비교하긴 매우 어렵다. 업종에 따라 다른데 GA4가 훨씬 많이 잡는다. 

라는 결론 2가지를 잠정적으로 낼 수 있었다.


STUDIO MX

김태완
서울시 강남구 테헤란로78길 14-11, 6층 8층

Comments
  • 2023년 4월 19일
    관악산 날다람쥐

    안녕하세요 지나가던 GA4 API 리서치중인 개발자입니다. 말씀주신대로 세션수나 1~2%정도 높게 잡히는 것 같고
    지표중 간혹 외부에 공개된 지표가 아닌 커스텀 계산식을 이용한 내부적으로 사용하고 있는 지표들이 있는데 대표적으로 말씀주신 averageSessionDuration는 내부적으로 userEngagementDurationPerSession이란 값으로 사용되고 있고 (userEngagementDuration/sessions 입니다) 비슷한 경우의 수가 2~3개 정도있었습니다.
    API의 경우 이런식으로 계산식을 만들고 이름을 임의로 지을 수 있는데 몇몇 지표들이 이런식으로 외부에 공개되지 않고 자체적인 방식으로 계산하고있는듯합니다.
    마케팅적인 인사이트가 부족하여 해석은 불가하나 위와같은 이유로 값이 기대와 다르게 상이한 케이스가 있습니다.

    reply
Post a Comment