Polega na porównaniu metryki między wersją A i B, ocenie, czy różnica jest statystycznie istotna i praktycznie znacząca, oraz sprawdzeniu stabilności danych i wpływu czynników zewnętrznych. Na podstawie tej oceny podejmuje się decyzję o wdrożeniu jednej z wersji.
Co mierzymy w testach A/B
- Metryka primary — najważniejszy wskaźnik decyzji (np. konwersje, CTR, przychód na użytkownika).
- Lift — różnica między wariantami: bezwzględna (np. 1,5 p.p.) i względna (%).
- Wskaźniki pomocnicze — np. czas na stronie, liczba interakcji, wartość klienta (LTV).
- Stabilność i sezonowość — czy wynik nie wynika z jednorazowego skoku lub z zewnętrznych czynników.
Przykłady metryk
- Konwersje zakupowe
- Wskaźnik odrzuceń (bounce rate)
- Średnia wartość koszyka
- Przychód per użytkownik
Jak ocenić znaczenie statystyczne
- Hipotezy — H0: brak różnicy; H1: różnica istnieje.
- P-wartość — jeśli < 0,05, wynik często uznaje się za statystycznie istotny (przy założonym alfa).
- Przedział ufności — 95% CI różnicy/ligi upliftu wskazuje zakres możliwych wartości efektu.
- Wysokość mocy — odzwierciedla szansę wykrycia prawdziwego efektu przy zadanym liftie.
- Korekcje dla wielu porównań — jeśli testuje się wiele wariantów, stosuj korekty alpha (np. Bonferroni).
Planowanie i interpretacja próby i czasu trwania
- Zdefiniuj KPI i baseline.
- Określ oczekiwany lift i wymaganą moc (np. 80%).
- Oblicz potrzebną liczbę uczestników i czas trwania testu.
- Uwzględnij sezonowość i tzw. dzień tygodnia; unikaj krótkich, jednostkowych odcinków.
- Ustal regułę zakończenia testu przed jego startem (statystycznie i biznesowo).
- Po zakończeniu analizuj CI, p-wartość i stabilność wyników.
Jak analizować wyniki w kontekście segmentów
- Sprawdzaj spójność efektu w kluczowych segmentach (np. ruch organiczny vs płatny).
- Ignoruj wysokie odchylenia w pojedynczych segmentach bez potwierdzenia w całej próbce.
- Jeśli lift występuje tylko w jednym segmencie, rozważ testy ukierunkowane na ten segment.
Najczęstsze pułapki i błędy
- Zbyt wczesne zakończenie testu bez zaplanowanych reguł (peeking).
- Brak korekty dla sezonowości i zmian ruchu w czasie.
- Porównywanie notorycznie różnych metryk bez spójnej definicji KPI.
- Ignorowanie przedziałów ufności i praktycznej wartości efektu.
- Niepoprawne rozumienie p-wartości jako prawdopodobieństwa prawdziwej hipotezy.
Przykładowy scenariusz interpretacji wyniku
- Wskaźnik konwersji A: 10,0%; B: 11,5%.
- Lift bezwzględny: 1,5 pp; lift względny: 15%.
- P-wartość: 0,03; 95% CI dla różnicy: 0,5–2,5 pp.
- Interpretacja: statystycznie istotny i praktycznie znaczący wzrost konwersji, warto rozważyć wdrożenie B, jeśli koszt wdrożenia i ryzyko odpowiadają korzyściom.
- Uwzględnij segmenty i stabilność w czasie; jeśli wyniki są niejasne, rozważ przedłużenie testu lub dodatkowe analizy.
Wnioski i praktyczne rekomendacje
- Ustal jasny KPI i reguły zakończenia testu przed startem.
- Sprawdź statystyczne i praktyczne znaczenie efektu.
- Uwzględnij sezonowość i segmenty w analizie.
- Unikaj wniosków na podstawie krótkich, nietrwałych okresów.
- Dokładnie dokumentuj metodologię i założenia przed wdrożeniem jednej wersji.
Często Zadawane Pytania
Co to jest test A/B?
Test A/B to porównanie dwóch wersji elementu w celu ustalenia, która działa lepiej na wybranej metryce.
Jak obliczyć lift w wynikach testu A/B?
Lift to różnica między wersją B a A, wyrażona w punktach procentowych lub procentowo (np. 1,5 pp, 15%).
Co to jest p-wartość i jak ją interpretuwać?
P-wartość mówi, jak prawdopodobne byłoby zaobserwowanie takiej różnicy przy braku prawdziwej różnicy. Zwykle <0,05 uznaje się za istotność statystyczną.
Jak dobrać odpowiednią wielkość próby?
Określ KPI, baseline, oczekiwany lift i wymaganą moc (np. 80%). Na tej podstawie oblicz liczbę uczestników potrzebnych do testu.
Co to jest przedział ufności i po co go używamy?
Przedział ufności pokazuje zakres wartości, w którym z określonym prawdopieństwem mieści się prawdziwy efekt. Ułatwia ocenę niepewności wyniku.
Dlaczego nie wolno zakończyć testu zbyt wcześnie?
Wczesne zakończenie może prowadzić do błędów I rodzaju. Stosuj z góry ustalone reguły zakończenia.
Czy wyniki zawsze są takie same w całej populacji i segmentach?
Nie zawsze. Wyniki mogą się różnić w zależności od segmentu; warto analizować również segmentarycznie.
Co zrobić, gdy wynik jest niejednoznaczny?
Przeanalizuj zarówno statystyczne, jak i praktyczne znaczenie. Rozważ wydłużenie testu lub dodatkowe analizy (np. analiza bayesowska).