Miten mitata tilastollista merkitsevyyttä A/B-testeissä?
Tilastollinen merkitsevyys on A/B-testauksen perusta. Ilman sitä et tiedä onko tulos todellinen vai sattumaa.
Tilastolliset peruskäsitteet
P-arvo (p-value)
P-arvo = Todennäköisyys nähdä tämä tulos,
jos eroa ei oikeasti ole (H0 tosi)
p < 0.05 → Tilastollisesti merkitsevä
p < 0.01 → Erittäin merkitsevä
p > 0.05 → Ei merkitsevä
Luottamusväli
95% luottamusväli:
"Olemme 95% varmoja, että todellinen arvo on tällä välillä"
Esimerkki:
Konversion nousu: 12% (8% - 16%)
→ Todellinen nousu on todennäköisesti 8-16%
Statistical power
Power = Todennäköisyys havaita todellinen ero
Tavoite: > 80%
→ 80% todennäköisyys havaita todellinen ero
→ 20% todennäköisyys "false negative"
Otoskoon laskenta
Kaava
n = 2 × (Zα/2 + Zβ)² × p(1-p) / MDE²
Missä:
n = Tarvittava otoskoko per variantti
p = Baseline-konversioprosentti
MDE = Minimum detectable effect
Zα/2 = 1.96 (95% luottamus)
Zβ = 0.84 (80% power)
Käytännön esimerkki
Baseline conversion: 3%
MDE: 10% suhteellinen (2.7% → 3.3%)
Power: 80%
Confidence: 95%
→ Tarvittava otoskoko: ~85,000 per variantti
→ Yhteensä: ~170,000 kävijää
Otoskokotaulukko (95% / 80%)
| Baseline | 5% MDE | 10% MDE | 20% MDE |
|---|---|---|---|
| 1% | 3.1M | 780K | 195K |
| 3% | 980K | 245K | 61K |
| 5% | 570K | 143K | 36K |
| 10% | 265K | 66K | 17K |
Testin kesto
Minimikesto
1. Otoskokoon perustuva
Kesto = Tarvittava otoskoko / Päivittäinen liikenne
2. Bisnesykliin perustuva
- Vähintään 1 kokonainen viikko
- Mieluiten 2 viikkoa
- Sisällytä viikonloppu
Ei lopeta testiä ennenaikaisesti
❌ "Tulos näyttää hyvältä, lopetetaan"
❌ "P-arvo on jo alle 0.05"
❌ "Saimme tarpeeksi dataa"
✅ Päätä kesto etukäteen
✅ Odota täysi otoskoko
✅ Katso kokonaiskuva
Yleisimmät virheet
1. Peeking problem
Ongelma: Katsot tuloksia päivittäin, lopetat kun näyttää hyvältä
Seuraus: False positive rate nousee
- 1 tarkistus: 5%
- 5 tarkistusta: ~14%
- 10 tarkistusta: ~19%
Ratkaisu:
- Sequential testing (alpha spending)
- Päätä lopetus etukäteen
2. Liian pieni otoskoko
Ongelma: Testi ei saavuta riittävää voimaa
Seuraus:
- Ei havaita todellisia eroja
- Satunnaisvaihtelu dominoi
- Väärät päätökset
Ratkaisu: Laske otoskoko etukäteen
3. Multiple comparisons
Ongelma: Testaat monta asiaa samalla datalla
5 metriikkaa, 95% luottamus:
→ 23% todennäköisyys vähintään yksi false positive
Ratkaisu:
- Bonferroni-korjaus
- Yksi primary metric
Oikea testausprotokolla
Ennen testiä
- Määritä hypoteesi
- Valitse primary metric
- Laske tarvittava otoskoko
- Päätä testin kesto
Testin aikana
- Monitoroi teknisiä ongelmia
- ÄLÄ tee päätöksiä datan perusteella
- Dokumentoi poikkeamat
Testin jälkeen
- Analysoi primary metric
- Tarkista segmentit
- Dokumentoi opit
- Tee päätös
Työkalut
Otoskokolaskurit
- Evan Miller's Calculator
- Optimizely Sample Size Calculator
- VWO SmartStats
Testauspalvelut
- Optimizely (frequentist + bayesian)
- VWO (bayesian)
- Google Optimize (poistunut)
- LaunchDarkly (feature flags)
Bayesian vs Frequentist
Frequentist
+ Vakiintunut, ymmärretty
+ Selkeä p-arvo
- Vaatii etukäteen päätetyn otoskoon
- Ei sano "kuinka paljon parempi"
Bayesian
+ Voit tarkastella milloin vain
+ Kertoo todennäköisyyden
+ Joustavampi
- Monimutkaisempi tulkita
- Prior-valinnat vaikuttavat