G

Bayesianisch vs. Frequentistisch: Welche Methode eignet sich für A/B-Tests?

Endlich den Unterschied zwischen bayesscher und frequentistischer Statistik verstehen, um seine A/B-Tests zu optimieren.

Analytics
ZUSAMMENFASSUNG
  1. Textlink
Zusammenfassung

Wenn Sie als Datenanalyst, Produktmanager oder Growth-Marketer tätig sind, haben Sie diese Situation vielleicht schon einmal erlebt: Sie starten einen vielversprechenden A/B-Test und warten wochenlang auf Ergebnisse … die sich letztendlich als nicht signifikant erweisen. Oder schlimmer noch: Sie beobachten Zahlen, die bei einer bestimmten Berechnungsmethode flach erscheinen, bei einem Wechsel des statistischen Ansatzes jedoch plötzlich signifikant werden. In der Zwischenzeit entgehen Ihnen möglicherweise wertvolle Konversionen, oder Sie lassen zu, dass eine unterdurchschnittlich performende Variante Ihren Umsatz schmälert.

Heutzutage bieten die meisten auf dem Markt erhältlichen A/B-Test-Tools (wie Kameleoon, AB Tasty, VWO oder Optimizely) zusätzlich zur klassischen frequentistischen Methode einen bayesschen Ansatz an; einige haben sogar den umgekehrten Weg eingeschlagen, wie beispielsweise AB Tasty, das ursprünglich ausschließlich bayessch arbeitete, bevor es die frequentistische Methode wieder in seine Berichte integrierte. Aber warum diese Entwicklungen? Bei Welyft, einer auf CRO spezialisierten Agentur, stellen wir oft fest, dass Teams Schwierigkeiten haben, die Wahl einer bestimmten statistischen Methode gegenüber einer anderen zu begründen.

In diesem Artikel werden wir Sie nicht mit mathematischen Formeln überhäufen. Unser Ziel ist es, Ihnen zu helfen, die Funktionsweise der beiden Methoden zu verstehen, damit Sie besser entscheiden können, welche für Ihren Kontext, Ihr Traffic-Volumen und Ihre Geschäftsziele am besten geeignet ist.

Was unterscheidet den frequentistischen Ansatz wirklich vom bayesschen Ansatz?

Um wirklich zu verstehen, worum es hier geht, muss man die Philosophie hinter den beiden großen statistischen Schulen begreifen.


Der „frequentistische“ Ansatz

Der frequentistische Ansatz ist der traditionelle Ansatz, den man in der Schule lernt. Er hat seinen Namen vom Begriff „Häufigkeit“, wobei die Wahrscheinlichkeit eines Ereignisses der Häufigkeit entspricht, mit der es eintreten würde, wenn man das Experiment unendlich oft wiederholen würde.

Bei einem A/B-Test „denkt man umgekehrt“. Die Methode geht von einer Prämisse aus, die als „Nullhypothese“ bezeichnet wird. Das heißt, man geht davon aus, dass es absolut keinen Unterschied zwischen der Version A (der sogenannten „Original“- oder „Kontrollversion“) und der Version B (der Variante) gibt. Das Ziel besteht dann darin, eine vordefinierte Datenmenge zu sammeln, um zu beweisen, dass diese Hypothese falsch ist, und somit nachzuweisen, dass die vorgenommene Änderung statistisch signifikant ist. Keine Sorge, diese Berechnung erfolgt nicht von Hand – dafür gibt es zahlreiche Tools, und wir haben die besten Rechner in diesem speziellen Artikel aufgelistet .

Die wichtigsten Kennzahlen sind der p-Wert (der die Wahrscheinlichkeit angibt, dass der beobachtete Unterschied auf Zufall zurückzuführen ist) und das Konfidenzintervall (was bedeutet, dass bei einer wiederholten Durchführung dieses Tests 90 % dieser Intervalle den tatsächlichen Gewinn enthalten würden). Letztendlich handelt es sich um eine binäre Methode: Entweder ist der beobachtete Unterschied ein reiner Zufall, oder er wird bestätigt.

Die Analogie zum Gericht: Es ist wie bei einem Prozess. Version B gilt als „unschuldig“ in Bezug auf jegliche Überlegenheit, solange Sie nicht genügend Beweise gesammelt haben, um das Gegenteil zu beweisen.

Der „Bayes’sche“ Ansatz 

Der Bayes’sche Ansatz (nach dem Satz des britischen Mathematikers Thomas Bayes) funktioniert wie ein Mensch, der vor einer Entscheidung steht. Er berücksichtigt das vorhandene Wissen und aktualisiert seine Wahrscheinlichkeiten in Echtzeit, sobald ein neuer Nutzer mit Ihrem Test interagiert. Anstatt eine absolute Wahrheit beweisen zu wollen, liefert diese Methode eine intuitive und konkrete Antwort: „Wie hoch ist die Wahrscheinlichkeit, dass Variante B besser ist als Variante A?“

Die wichtigsten Kennzahlen sind die Gewinnwahrscheinlichkeit (direkt ausgedrückt als prozentuale Wahrscheinlichkeit, dass B A schlägt) und das Konfidenzintervall (das Ihnen konkret besagt: „Die Wahrscheinlichkeit, dass Ihr Gewinn zwischen +1 % und +3 % liegt, beträgt 90 %“).

Die Analogie zur Sportwette: Stellen Sie sich vor, Sie wetten auf ein Tennismatch. Im Laufe der Sätze und während die Spieler Punkte erzielen, passen Sie Ihre Einschätzung des späteren Siegers an. Sie warten nicht bis zum Ende des Spiels, um zu erkennen, wer die Oberhand hat, sondern aktualisieren Ihre „Einschätzung“ kontinuierlich entsprechend den Ereignissen auf dem Platz.

Die beiden Methoden beantworten nicht dieselbe Frage. Der Frequentist versucht festzustellen, ob zwischen A und B ein tatsächlicher Unterschied besteht – es handelt sich also um eine Existenzfrage. Der Bayesianer hingegen gibt direkt an, ob die Variante B besser ist als A und mit welcher Wahrscheinlichkeit – es handelt sich also um eine Entscheidungsfrage. Oftmals ist es genau dieser feine Unterschied, der den Teams entgeht und zu Fehlinterpretationen der Ergebnisse führt.

Was sind die wichtigsten Kennzahlen der frequentistischen und der bayesschen Methode?

An dieser Stelle wird es in der Regel kompliziert, und die Fachsprache gewinnt die Oberhand. Einfach ausgedrückt: Die frequentistische Statistik und die Bayes’sche Statistik beantworten schlichtweg nicht dieselbe Frage.

Hier ist ein anschaulicher Vergleich, damit Sie besser verstehen, was Sie da konkret lesen: 

Was Sie wissen möchten Frequentistischer Ansatz Bayes'sche Methode
Die Frage, die der Algorithmus beantwortet „Ist der festgestellte Unterschied zwischen A und B zufällig?“ „Wie hoch ist die Wahrscheinlichkeit, dass die Variante B besser ist als die Variante A?“
Der wichtigste Erfolgsindikator Der P-Wert
Entgegen der landläufigen Meinung handelt es sich hierbei nicht um die Erfolgswahrscheinlichkeit, sondern um die Wahrscheinlichkeit, Ergebnisse zu erzielen, die mindestens ebenso ausgeprägt sind wie die beobachteten. Er dient dazu, den Einfluss des Zufalls zu messen: Je kleiner der P-Wert ist, desto mehr wird die Hypothese einer Gleichheit zwischen A und B zugunsten eines tatsächlichen Unterschieds widerlegt. Deshalb wird er oft in der Form „1 – P-Wert“ dargestellt, wodurch aus einem Index ein intuitiverer statistischer Konfidenzgrad wird.
Die Gewinnwahrscheinlichkeit
Kurz gesagt: Es ist einfach und intuitiv. Das Tool sagt Ihnen buchstäblich: „Die Wahrscheinlichkeit, dass Ihre neue Produktseite besser konvertiert als die aktuelle, liegt bei 95 %.“
Die Schätzung Ihrer potenziellen Gewinne Das Konfidenzintervall
Vorsicht vor der Falle! Es gibt nicht die Wahrscheinlichkeit an, mit der Ihr Gewinn in diesem Intervall liegt. Es bewertet vielmehr die langfristige Zuverlässigkeit. Ein 90-prozentiges Konfidenzintervall bedeutet beispielsweise, dass, wenn Sie diesen gesamten Vorgang (Datenerhebung und Berechnung des Intervalls) viele Male wiederholen würden, 90 % dieser Intervalle den tatsächlichen Wert enthalten würden.
Das Glaubwürdigkeitsintervall
Dies ist eine direkte und für Ihr Unternehmen nachvollziehbare Schätzung. Ein Glaubwürdigkeitsintervall von 90 % bedeutet beispielsweise, dass die Wahrscheinlichkeit, dass der tatsächliche Gewinn in diesem Intervall liegt, bei 90 % liegt.
Die Stichprobenregel Feste Größe
Sie müssen vor Beginn des Tests die erforderliche Besucherzahl berechnen und dürfen nichts ändern, bis diese Zahl erreicht ist
Flexible Stichprobengröße
Der Algorithmus wird bei jedem neuen Besuch kontinuierlich aktualisiert. Sie müssen keine feste Stichprobengröße im Voraus festlegen.
Beobachtung während der Fahrt (Data Peeking) Strengstens verboten
Eine Entscheidung vor Abschluss des Tests zu treffen, verfälscht die Analyse und erhöht das Risiko, einen falschen Gewinner einzusetzen
Zugelassen
Sie können die täglichen Trends beobachten. Ideal, um eine Variante sofort zu stoppen, falls sie sich als schädlich für Ihren Umsatz erweist.

Schließlich kann die Vokabular der Frequentisten (wie der berühmte P-Wert) für jeden kontraintuitiv sein und führt oft dazu, dass Teams die Ergebnisse falsch interpretieren. Seine Strenge hat jedoch einen Vorteil: Sie lässt keinen Raum für Interpretationen. Unterhalb des festgelegten Konfidenzniveaus ist das Urteil unumstößlich: Der Test bleibt ergebnislos, Punkt.
Diese Vorgehensweise erstreckt sich sogar auf die Vorbereitungsphase. Indem Sie die Dauer des Tests vor dessen Start berechnen, strukturieren Sie ganz natürlich Ihre Experimentier-Roadmap, vermeiden Überschneidungen zwischen Tests im gleichen Umfang und wissen stets, wann Sie den nächsten starten können.

Im Gegensatz dazu entspricht der bayesianische Begriffsapparat der Realität unserer Berufe: Er quantifiziert ein Risiko und schätzt einen finanziellen Gewinn ein, was die Entscheidungsfindung in Besprechungen erheblich erleichtert. Diese Flexibilität hat jedoch ihren Preis. Es gibt keine Sicherheitsvorkehrung, die Sie daran hindert, eine Variante auf der Grundlage einer noch unsicheren Gewinnwahrscheinlichkeit als Gewinner zu deklarieren. Das Risiko ist bei kleinen Effekten umso größer, bei denen das Glaubwürdigkeitsintervall breit bleibt und sich erst langsam stabilisiert, selbst wenn die Gewinnwahrscheinlichkeit bereits vielversprechend erscheint.

Kann man seine Ergebnisse wirklich in Echtzeit ablesen?

Der größte Nachteil des frequentistischen Ansatzes ist seine Starrheit. Wenn Sie sich Ihre Ergebnisse während des Prozesses ansehen (das sogenannte „Data Peeking“) und eine Entscheidung treffen, bevor der zuvor berechnete Stichprobenschwellenwert erreicht ist, verfälschen Sie Ihre Analyse.

Der bayesianische Ansatz kann zwar die Entscheidungsfindung erheblich beschleunigen, doch diese Flexibilität ist kein Grund, überstürzt zu handeln. Bevor Sie einen Test abbrechen, sollten Sie sich stets vergewissern, dass der beobachtete Trend eindeutig ist und sich über mehrere Tage hinweg bestätigt hat. Ein Neuheitseffekt, saisonale Schwankungen oder eine einfache punktuelle Schwankung können leicht zu einem Fehlalarm führen, insbesondere wenn das Glaubwürdigkeitsintervall noch instabil ist. Sind diese Bedingungen erfüllt, können Sie einen Test beenden, wenn er Ihre Umsätze sinken lässt, oder die erfolgreiche Variante umsetzen, ohne wegen einer festen Stichprobengröße wochenlang warten zu müssen – sobald Sie eine überzeugende Erfolgswahrscheinlichkeit mit einem engen Konfidenzintervall erhalten.

Welche Methode eignet sich für welchen Kontext?

Es gibt keine „falsche“ Methode, sondern nur Methoden, die in einem bestimmten Kontext falsch angewendet werden. Hier erfahren Sie, wie wir Ihnen empfehlen, diese Methoden bei Ihren E-Commerce- oder Lead-Generation-Herausforderungen einzusetzen.

Wann sollte man die frequentistische Methode anwenden? 

Dieser Ansatz ist besonders dann zu bevorzugen, wenn Sie an größeren strukturellen Veränderungen oder risikoreichen Tests arbeiten, bei denen eine Fehlentscheidung sehr kostspielig wäre. Sie benötigen diese „wissenschaftliche Strenge“, die es erfordert, mit Schlussfolgerungen bis zum Ende des Tests zu warten, um die Risiken so weit wie möglich zu begrenzen.

  • Beispiel 1: Die komplette Neugestaltung eines Kaufprozesses. Stellen Sie sich vor, Sie ändern das Design aller Schritte Ihres Checkout-Prozesses. Wenn Sie dabei einen Fehler machen, wird der Umsatzverlust enorm sein. Sie benötigen daher die Sorgfalt eines Frequentisten, um sich zu 100 % Ihrer statistischen Signifikanz sicher zu sein, bevor Sie Ihre Entwickler mit einem einmonatigen Projekt beauftragen.

  • Beispiel 2: Auf Websites mit sehr hohem Datenverkehr, bei denen die erforderliche Stichprobengröße bereits nach wenigen Tagen erreicht wird. Das Datenvolumen ermöglicht es hier, von der Genauigkeit des frequentistischen Modells zu profitieren, ohne die üblichen Wartezeiten in Kauf nehmen zu müssen, wodurch die Reaktionsgeschwindigkeit der bayesschen Methode erreicht wird.
Empfohlenes Tool für den frequentistischen Ansatz: Der Welyft-Rechner

Wann sollte man die Bayes’sche Methode anwenden? 

Sie eignet sich ideal für die Agilität im Alltag und für iterative Tests. Sie ermöglicht es, den Test vorzeitig zu beenden, wenn eine Variante deutlich besser abschneidet, und die Ergebnisse wesentlich intuitiver zu interpretieren.

  • Beispiel 1: Auf Seiten mit geringem Traffic (z. B. B2B oder Nischenmarkt). Hier würde es 6 Monate dauern, die vom frequentistischen Ansatz geforderte Stichprobengröße zu erreichen. Mit dem Bayes’schen Ansatz können Sie viel schneller eine zuverlässige Erfolgswahrscheinlichkeit ermitteln.
     
  • Beispiel 2: Bei Mikrooptimierungen (z. B. beim Wortlaut, bei der Bestätigung …). Denn in diesem Fall sind die Implementierungskosten gering. Wenn der Glaubwürdigkeitsbereich einen potenziellen Gewinn zwischen +1 % und +3 % anzeigt, können Sie iterieren und die Maßnahmen umsetzen, ohne auf eine absolute Validierung zu warten.
  • Beispiel 3: Bei kurzfristigen Werbeaktionen (z. B. Schlussverkäufe, Black Friday…). Hier ist die Zeit knapp, und die Bayes’sche Methode ermöglicht es Ihnen, auf die erfolgreichste Variante umzuschalten, sobald sich ein deutlicher Trend abzeichnet, und so den unmittelbaren Gewinn zu maximieren.
Empfohlenes Tool für die Bayes’sche Methode: Der Welyft-Rechner

Was hat das alles eigentlich mit echter CRO-Expertise zu tun?

Das richtige Werkzeug zum richtigen Zeitpunkt einzusetzen – das ist echte CRO-Kompetenz. Diese Flexibilität bei der Auswahl darf jedoch nicht zu methodischer Unschärfe führen. Die Methode muss vor Beginn des Tests festgelegt werden, niemals erst währenddessen. Ein Wechsel des statistischen Ansatzes mitten in einem Experiment oder das Hin- und Herwechseln zwischen zwei Ansätzen je nach den Ergebnissen, die Ihnen gerade gelegen kommen, erschwert die Nachverfolgbarkeit Ihrer Ergebnisse erheblich und untergräbt die Zuverlässigkeit Ihrer Schlussfolgerungen.

Behalten Sie das Wesentliche im Blick. Der frequentistische Ansatz bietet Ihnen die nötige Genauigkeit – ideal für Entscheidungen mit hohem Risiko. Der Bayesianer bietet Ihnen Flexibilität – perfekt, um schnell zu iterieren und in Echtzeit zu entscheiden. Allerdings eignet er sich nicht für Nichtunterlegenheitstests, da er lediglich angibt, ob eine Variante besser ist als eine andere, ohne bestätigen zu können, dass sie nicht signifikant schlechter ist.

Bei Welyft wählen wir als CRO-Experten stets die Methode, die den Ergebnissen dient, und nicht die, die gerade im Trend liegt. Denn eine gute CRO-Entscheidung ist in erster Linie der richtige Ansatz, der dem jeweiligen Kontext, dem Traffic und den Geschäftszielen entspricht.

Tauschen Sie sich mit einem Welyft-Experten aus

Die Data-Marketing-Agentur, die den ROI Ihrer Customer Journeys steigert

Termin vereinbaren
Teilen Sie diesen Artikel auf

Erzählen Sie uns mehr über Ihr Projekt

Wir wissen, wie Sie die Leistung Ihrer digitalen Kanäle steigern können.
CRO
Data
User Research
Experimente
Kontaktieren Sie uns