3rd party cookies
Product news

Дослідження GEMIUS у світі без 3rd party cookies

У дослідженні gemiusAudience ми неодноразово стикалися з проблемою як виміряти кількість реальних користувачів Інтернету (Real Users) на основі ідентифікаторів (браузерів), які дозволили призначити «cookies». Наша методологія включає елементи, які усувають такі явища, як використання кількох пристроїв однією особою, спільне використання одного пристрою кількома людьми або видалення файлів cookie. Припинення підтримки 3rd party cookies (TPC) такими браузерами, як FireFox або Edge, і вимкнення цієї функції у Chrome є ще одним методологічним викликом для дослідників.

Відповідь Gemius на «Cвіт без файлів cookie» - це нова методологія gemiusAudience:

JAR (Joint Apocalypse Response) — комплексне рішення, яке забезпечить безперервність та якість результатів gemiusAudience навіть після того, як проголошений «апокаліпсис» настане. Новий метод також дає змогу оцінити кількість реальних користувачів (Real Users) для всіх інших браузерів, які вже вимкнули механізм підтримки сторонніх файлів cookie раніше, ніж Chrome.

Як переоцінити кількість Real users?

Дослідження gemiusAudience базується на гібридній методології, двома основними компонентами якої є сайт-центричне дослідження (встановлення коду) та юзер-центричне (панель). В обох випадках, 3rd party ідентифікатори були основним джерелом інформації про користувачів. Нова реальність без 3rd party ідентифікаторів створює два виклики:

  1. Як оцінити кількість Real Users для скриптованих доменів на основі сайт-центричних даних?
  2. Як рекрутувати та контролювати панелістів у дослідженні, що базується на cookies, для визначення демографічного профілю користувачів Інтернету?
q1

Кількість реальних користувачів Real Users є ключовим показником, що вказує на розмір аудиторії. Його можна оцінити на основі вибірки дослідження та установчого дослідження, тобто вимірювання в межах усієї генеральної сукупності. Останній підхід усуває статистичну похибку, яка для невеликих паблішерів або рекламних кампаній може вплинути на статистичну значущість результатів. Ось чому дослідження gemiusAudience, для паблішерів з 2004 року, має компонент під назвою Site-centric (сайт-центричний/скриптований), який дає змогу точно вимірювати кожен перегляд сторінки, кожен контакт користувача із сайтом паблішера.

"Real User" алгоритм, який використовується для оцінки значення RU на основі скриптованих даних, складається з двох компонентів:

  1. Компонент оцінки кількості браузерів («BN=browser number»), що на основі зібраних ідентифікаторів, після виключення видалення файлів cookie та врахування non-cookie трафіку, визначає, із скількох різних браузерів користувачі відвідали домен.
  2. Оцінка кількості користувачів, які використовували ці браузери.

Значення RU розраховуються для наступних сегментів:

  • Група доменів
  • Домен/Додаток/Аудіо/Відеоплеєр.
  • Сервіс/підрозділ домену

Зміни в підтримці Chrome призводять до того, що скриптована частина Інтернету в вимірюванні розділяється на стільки ідентифікаторів, скільки доменів/додатків у дослідженні. Це робить необхідним налаштувати алгоритми, які підраховують повторення користувачів між доменами в групі власника медіа. Крім того, перехід у нашому методі на ідентифікатори 1st party змусив змінити метод усунення можливості видалення файлів cookie. Можливість видалення 1st party ідентифікаторів має суттєво інші характеристики, ніж ідентифікатори 3rd party.

У новій версії компонент кількість браузера (Browser Number), алгоритм розділено на 4 фази обчислення:

  • Для одного домена за один день
  • Для групи доменів за один день
  • Для одного домена протягом певного періоду - наприклад, місяця.
  • Для групи доменів протягом певного періоду - наприклад, місяця.

Для одного домену на один день ми переключили обчислення з ідентифікаторів 3rd party на ідентифікатори 1st party зі зміною характеристик між цими наборами.

q2

Щоб усунути дублікацію покриття в групі доменів, ми розробили метод, який на основі призначеного набору характеристик IP-адрес і значень кількості браузерів для кожного домену, підрахованих на попередньому етапі, визначає загальне значення реальних користувачів Real Users для групи власника медіа. Оцінка кількості браузерів (Browsers' Number -BN) для групи доменів визначає % додаткових значень кількості браузерів для кожного домену в групі та об’єднує цю інформацію в одне значення BN для групи.

У випадку щомісячної оцінки кількості браузерів для домену нам потрібно було вирішувати проблему видалення ідентифікаторів 1st party Cookies (FPC) поступово з часом. Чим довший період, тим вища ймовірність того, що даний ідентифікатор може буде видалений та замінений новим значенням. Ми адаптували розроблену модель до характеристик видалення ідентифікаторів 1st party.

Останній етап обчислення розміру аудиторії для групи власника є поєднанням методу оцінки дублювання та усунення видалення ідентифікатора. Скриптовані дані підготовлені таким чином, що передаються на подальші етапи моделювання даних із вибірок дослідження як контрольні значення, що зменшує статистичну похибку та дозволяє точно аналізувати охоплення та частоту контактів навіть для невеликих доменів або кампаній.

Зміни в панельному дослідженні

Дослідження gemiusAudience базується на 3 типах дослідницьких панелей:

  1. Сookie панель - найчисленніша, але охоплює лише скриптовані домени
  2. Software панель (ПК, Планшет і Смартфон) – охоплює всі домени та мобільні додатки, але значно менша за кількістю, ніж Сookie панель + вимагає встановлення додатку вимірювання Gemius.
  3. Hardware панель - вибірка людей, яким надано пристрій для вимірювання Інтернету, телебачення, радіо та контактів із зовнішньою рекламою від Gemius (традиційні OOH та DOOH).

q3

Cookie панель — тісно пов’язана з сайт-центричним/скриптованим компонентом дослідження, — це випадково обрані особи, які заповнили анкету опитування, що була відображена на сайтах проскриптованих паблішерів. Така особа ставала учасником панелі, доки з будь-якої причини вона не видалила ідентифікатор 3rd party, через який ми пов’язували активність на різних доменах.

Зміни в Chrome змусили переглянути наш підхід до створення та підтримки Сookie панелі. Першим кроком було налаштувати показу рекрутингових анкет для панелі, за допомогою ідентифікаторів 1st party. Оскільки опитувальник призначається ідентифікатору 1st party, активність особи, яка заповнила анкету, стосується лише домену, на якому був рекрутований панеліст. Щоб присвоїти йому його виміряну активність на інших скриптованих доменах, ми створили модель для об’єднання ідентифікаторів 1st party, що надходять з одного й того пристрою, але з різних доменів.

Для цього ми створюємо класифікатор, який оцінює ймовірність походження двох ідентифікаторів 1st party з одного пристрою на основі їх розподілу протягом часу появи в різних характерних підмережах (IP-адресах). Об’єднання ідентифікаторів дозволяє нам визначити бажану ймовірність. Класифікатор побудовано за допомогою моделі навчання, де дані надходять з наших тестових панелей (Software та Hardware).

Ми перевірили ефективність класифікатора за допомогою поточних даних із Chrome, для якого все ще доступні ідентифікатори 3rd party. У майбутньому оцінка якості відтворених ідентифікаторів базуватиметься на даних наших дослідницьких панелей з Software та Hardware вимірювачами. Ця ситуація підкреслює, наскільки важливу роль у майбутньому відіграватимуть високоякісні дослідницькі панелі.

Ідентифікатор Real User - пов’язаний 1st party ідентифікатор, отриманий з конкретного браузера користувача

Відношення об’єднання на одному пристрої є транзитивним. Якщо A і Б походять з одного пристрою, а B і C також, ми робимо висновок, що A і C також пов’язані між собою. Ця властивість дозволяє об’єднувати різні ідентифікатори 1st party в один набір без необхідності оцінки високої ймовірності для кожної пари. Чим більше доменів охоплено сайт-центричним дослідженням gemiusAudience, тим вища ймовірність використання цієї властивості алгоритму.

Така колекція пов’язаних власних ідентифікаторів 1st party називається Спільнотою Ідентифікаторів реальних користувачів Real User (CRUD =CommunityRealUserIDs). Присвоюючи ідентифікатор кожному CRUD, ми створюємо ідентифікатор Real Users, імовірнісний ідентифікатор, який має характеристики ідентифікатора 3rd party.

Для дослідження gemiusAudience ми вибираємо лише ті Ідентифікатори Real User, які мають певну демографічну характеристику (заповнений опитувальник), тобто належать до одного з тисяч наших cookie панелістів. Таким чином ми підтримуємо Сookie панель як дійсне джерело даних для дослідження gemiusAudience.

Підтримання високої якості результатів дослідження

Налаштування алгоритмів, які оцінюють значення кількості браузерів, і розробка методу, який перебудовує Сookie панель, дозволяє нам підтримувати існуючу якість результатів gemiusAudience. Незважаючи на вилучення 3rd party cookies з браузеру Chrome, ми можемо надавати інформацію про інтернет-аудиторію завдяки дослідницьким панелям, які у нас є, скриптуванню та досвіду моделювання даних.