Miten mitata tilastollista merkitsevyyttä A/B-testeissä

Tilastollinen merkitsevyys kertoo kuinka todennäköisesti A/B-testin tulos ei johdu sattumasta. Yleensä käytetään 95% luottamusväliä (p < 0.05). Tarvitset riittävän otoskoon, selkeän hypoteesin ja oikean testin keston.

Tilastollinen merkitsevyys kertoo kuinka todennäköisesti A/B-testin tulos ei johdu sattumasta. Yleensä käytetään 95% luottamusväliä (p < 0.05). Tarvitset riittävän otoskoon, selkeän hypoteesin ja oikean testin keston.

Miten mitata tilastollista merkitsevyyttä A/B-testeissä?

Tilastollinen merkitsevyys on A/B-testauksen perusta. Ilman sitä et tiedä onko tulos todellinen vai sattumaa.

Tilastolliset peruskäsitteet

P-arvo (p-value)

P-arvo = Todennäköisyys nähdä tämä tulos,
         jos eroa ei oikeasti ole (H0 tosi)

p < 0.05 → Tilastollisesti merkitsevä
p < 0.01 → Erittäin merkitsevä
p > 0.05 → Ei merkitsevä

Luottamusväli

95% luottamusväli:
"Olemme 95% varmoja, että todellinen arvo on tällä välillä"

Esimerkki:
Konversion nousu: 12% (8% - 16%)
→ Todellinen nousu on todennäköisesti 8-16%

Statistical power

Power = Todennäköisyys havaita todellinen ero

Tavoite: > 80%
→ 80% todennäköisyys havaita todellinen ero
→ 20% todennäköisyys "false negative"

Otoskoon laskenta

Kaava

n = 2 × (Zα/2 + Zβ)² × p(1-p) / MDE²

Missä:
n = Tarvittava otoskoko per variantti
p = Baseline-konversioprosentti
MDE = Minimum detectable effect
Zα/2 = 1.96 (95% luottamus)
Zβ = 0.84 (80% power)

Käytännön esimerkki

Baseline conversion: 3%
MDE: 10% suhteellinen (2.7% → 3.3%)
Power: 80%
Confidence: 95%

→ Tarvittava otoskoko: ~85,000 per variantti
→ Yhteensä: ~170,000 kävijää

Otoskokotaulukko (95% / 80%)

Baseline5% MDE10% MDE20% MDE
1%3.1M780K195K
3%980K245K61K
5%570K143K36K
10%265K66K17K

Testin kesto

Minimikesto

1. Otoskokoon perustuva
   Kesto = Tarvittava otoskoko / Päivittäinen liikenne

2. Bisnesykliin perustuva
   - Vähintään 1 kokonainen viikko
   - Mieluiten 2 viikkoa
   - Sisällytä viikonloppu

Ei lopeta testiä ennenaikaisesti

❌ "Tulos näyttää hyvältä, lopetetaan"
❌ "P-arvo on jo alle 0.05"
❌ "Saimme tarpeeksi dataa"

✅ Päätä kesto etukäteen
✅ Odota täysi otoskoko
✅ Katso kokonaiskuva

Yleisimmät virheet

1. Peeking problem

Ongelma: Katsot tuloksia päivittäin, lopetat kun näyttää hyvältä

Seuraus: False positive rate nousee
- 1 tarkistus: 5%
- 5 tarkistusta: ~14%
- 10 tarkistusta: ~19%

Ratkaisu:
- Sequential testing (alpha spending)
- Päätä lopetus etukäteen

2. Liian pieni otoskoko

Ongelma: Testi ei saavuta riittävää voimaa

Seuraus:
- Ei havaita todellisia eroja
- Satunnaisvaihtelu dominoi
- Väärät päätökset

Ratkaisu: Laske otoskoko etukäteen

3. Multiple comparisons

Ongelma: Testaat monta asiaa samalla datalla

5 metriikkaa, 95% luottamus:
→ 23% todennäköisyys vähintään yksi false positive

Ratkaisu:
- Bonferroni-korjaus
- Yksi primary metric

Oikea testausprotokolla

Ennen testiä

  1. Määritä hypoteesi
  2. Valitse primary metric
  3. Laske tarvittava otoskoko
  4. Päätä testin kesto

Testin aikana

  1. Monitoroi teknisiä ongelmia
  2. ÄLÄ tee päätöksiä datan perusteella
  3. Dokumentoi poikkeamat

Testin jälkeen

  1. Analysoi primary metric
  2. Tarkista segmentit
  3. Dokumentoi opit
  4. Tee päätös

Työkalut

Otoskokolaskurit

  • Evan Miller's Calculator
  • Optimizely Sample Size Calculator
  • VWO SmartStats

Testauspalvelut

  • Optimizely (frequentist + bayesian)
  • VWO (bayesian)
  • Google Optimize (poistunut)
  • LaunchDarkly (feature flags)

Bayesian vs Frequentist

Frequentist

+ Vakiintunut, ymmärretty
+ Selkeä p-arvo
- Vaatii etukäteen päätetyn otoskoon
- Ei sano "kuinka paljon parempi"

Bayesian

+ Voit tarkastella milloin vain
+ Kertoo todennäköisyyden
+ Joustavampi
- Monimutkaisempi tulkita
- Prior-valinnat vaikuttavat

Lue lisää

Usein kysytyt kysymykset

Miten mitata tilastollista merkitsevyyttä A/B-testeissä?

Tilastollinen merkitsevyys kertoo kuinka todennäköisesti A/B-testin tulos ei johdu sattumasta. Yleensä käytetään 95% luottamusväliä (p < 0.05). Tarvitset riittävän otoskoon, selkeän hypoteesin ja oikean testin keston.

Aiheeseen liittyvää