BLOG · PROGRAMMATIC SEO

Jak interpretować wyniki testów A/B?

✍️ Autor: Zespół semprojekt 🎯 Kategorie: Programmatic SEO, Ruch organiczny

Polega na porównaniu metryki między wersją A i B, ocenie, czy różnica jest statystycznie istotna i praktycznie znacząca, oraz sprawdzeniu stabilności danych i wpływu czynników zewnętrznych. Na podstawie tej oceny podejmuje się decyzję o wdrożeniu jednej z wersji.

Co mierzymy w testach A/B

Metryka primary — najważniejszy wskaźnik decyzji (np. konwersje, CTR, przychód na użytkownika).

Lift — różnica między wariantami: bezwzględna (np. 1,5 p.p.) i względna (%).

Wskaźniki pomocnicze — np. czas na stronie, liczba interakcji, wartość klienta (LTV).

Stabilność i sezonowość — czy wynik nie wynika z jednorazowego skoku lub z zewnętrznych czynników.

Przykłady metryk

Konwersje zakupowe

Wskaźnik odrzuceń (bounce rate)

Średnia wartość koszyka

Przychód per użytkownik

Jak ocenić znaczenie statystyczne

Hipotezy — H0: brak różnicy; H1: różnica istnieje.

P-wartość — jeśli < 0,05, wynik często uznaje się za statystycznie istotny (przy założonym alfa).

Przedział ufności — 95% CI różnicy/ligi upliftu wskazuje zakres możliwych wartości efektu.

Wysokość mocy — odzwierciedla szansę wykrycia prawdziwego efektu przy zadanym liftie.

Korekcje dla wielu porównań — jeśli testuje się wiele wariantów, stosuj korekty alpha (np. Bonferroni).

Planowanie i interpretacja próby i czasu trwania

Zdefiniuj KPI i baseline.

Określ oczekiwany lift i wymaganą moc (np. 80%).

Oblicz potrzebną liczbę uczestników i czas trwania testu.

Uwzględnij sezonowość i tzw. dzień tygodnia; unikaj krótkich, jednostkowych odcinków.

Ustal regułę zakończenia testu przed jego startem (statystycznie i biznesowo).

Po zakończeniu analizuj CI, p-wartość i stabilność wyników.

Jak analizować wyniki w kontekście segmentów

Sprawdzaj spójność efektu w kluczowych segmentach (np. ruch organiczny vs płatny).

Ignoruj wysokie odchylenia w pojedynczych segmentach bez potwierdzenia w całej próbce.

Jeśli lift występuje tylko w jednym segmencie, rozważ testy ukierunkowane na ten segment.

Najczęstsze pułapki i błędy

Zbyt wczesne zakończenie testu bez zaplanowanych reguł (peeking).

Brak korekty dla sezonowości i zmian ruchu w czasie.

Porównywanie notorycznie różnych metryk bez spójnej definicji KPI.

Ignorowanie przedziałów ufności i praktycznej wartości efektu.

Niepoprawne rozumienie p-wartości jako prawdopodobieństwa prawdziwej hipotezy.

Przykładowy scenariusz interpretacji wyniku

Wskaźnik konwersji A: 10,0%; B: 11,5%.

Lift bezwzględny: 1,5 pp; lift względny: 15%.

P-wartość: 0,03; 95% CI dla różnicy: 0,5–2,5 pp.

Interpretacja: statystycznie istotny i praktycznie znaczący wzrost konwersji, warto rozważyć wdrożenie B, jeśli koszt wdrożenia i ryzyko odpowiadają korzyściom.

Uwzględnij segmenty i stabilność w czasie; jeśli wyniki są niejasne, rozważ przedłużenie testu lub dodatkowe analizy.

Wnioski i praktyczne rekomendacje

Ustal jasny KPI i reguły zakończenia testu przed startem.

Sprawdź statystyczne i praktyczne znaczenie efektu.

Uwzględnij sezonowość i segmenty w analizie.

Unikaj wniosków na podstawie krótkich, nietrwałych okresów.

Dokładnie dokumentuj metodologię i założenia przed wdrożeniem jednej wersji.

Często Zadawane Pytania

Co to jest test A/B?

Test A/B to porównanie dwóch wersji elementu w celu ustalenia, która działa lepiej na wybranej metryce.

Jak obliczyć lift w wynikach testu A/B?

Lift to różnica między wersją B a A, wyrażona w punktach procentowych lub procentowo (np. 1,5 pp, 15%).

Co to jest p-wartość i jak ją interpretuwać?

P-wartość mówi, jak prawdopodobne byłoby zaobserwowanie takiej różnicy przy braku prawdziwej różnicy. Zwykle <0,05 uznaje się za istotność statystyczną.

Jak dobrać odpowiednią wielkość próby?

Określ KPI, baseline, oczekiwany lift i wymaganą moc (np. 80%). Na tej podstawie oblicz liczbę uczestników potrzebnych do testu.

Co to jest przedział ufności i po co go używamy?

Przedział ufności pokazuje zakres wartości, w którym z określonym prawdopieństwem mieści się prawdziwy efekt. Ułatwia ocenę niepewności wyniku.

Dlaczego nie wolno zakończyć testu zbyt wcześnie?

Wczesne zakończenie może prowadzić do błędów I rodzaju. Stosuj z góry ustalone reguły zakończenia.

Czy wyniki zawsze są takie same w całej populacji i segmentach?

Nie zawsze. Wyniki mogą się różnić w zależności od segmentu; warto analizować również segmentarycznie.

Co zrobić, gdy wynik jest niejednoznaczny?

Przeanalizuj zarówno statystyczne, jak i praktyczne znaczenie. Rozważ wydłużenie testu lub dodatkowe analizy (np. analiza bayesowska).

ZOBACZ TAKŻE: