Euer CRM-Team testet. Subject Lines, Send Times, CTA-Buttons, Layouts. Jede Woche ein neuer Test, jede Woche ein neuer “Gewinner”. Aber wenn ihr ehrlich hinschaut: Wie oft basiert die Entscheidung auf echten Daten, und wie oft auf einer Zahl, die gut aussieht, aber nichts bedeutet?
Die meisten A/B-Tests in CRM-Tools liefern keine validen Ergebnisse. Nicht weil die Tools schlecht wären. Sondern weil sie euch einen “Gewinner” anzeigen, sobald eine Variante vorne liegt, egal ob der Unterschied statistisch belastbar ist oder nicht.
Das Tool sagt “Gewinner” und meint “Zufall”
Ein Szenario, das wir ständig sehen: Ein Team testet zwei Subject Lines. Nach vier Stunden zeigt das Dashboard 220 Opens für Variante A, 195 für Variante B. Das Tool markiert A als Gewinner. Das Team rollt aus.
Bei dieser Sample-Size liegt die Wahrscheinlichkeit, dass der Unterschied reiner Zufall ist, bei über 70%. Ein Münzwurf hätte genauso gut funktioniert.
Die CRM-Plattformen machen es euch dabei nicht leicht. Klaviyo nutzt ein eigenes statistisches Modell mit “Win Probability” — ein Gewinner wird ab 90% Wahrscheinlichkeit markiert. Das klingt solide, zeigt aber keine klassischen Konfidenzintervalle oder p-Werte. Bei kleinen Sample-Sizes kann die Win Probability irreführend schnell eine Entscheidung suggerieren. Brevo hat überhaupt keine eingebaute Signifikanzprüfung. Braze bietet eine automatische Signifikanzberechnung für “Winning Variants” in Experiment Paths, aber nur in bestimmten Canvas-Konfigurationen, und die meisten Teams nutzen sie nicht.
Die Tools tragen Mitschuld. Aber das eigentliche Problem sitzt tiefer.
Die Rechnung, die niemand macht
Bevor ihr einen A/B-Test startet, müsst ihr eine Frage beantworten: Wie viele Empfänger brauche ich pro Variante, damit der Test aussagekräftig ist?
Die Antwort hängt von drei Faktoren ab: eure Baseline-Conversion-Rate, der Unterschied den ihr erkennen wollt (Minimum Detectable Effect), und das Konfidenzniveau, in der Regel 95%.
Konkretes Beispiel: Eure E-Mail-Kampagne hat eine Click Rate von 3%. Ihr wollt wissen, ob eine neue Subject Line die Rate um mindestens 10% relativ verbessert, also von 3,0% auf 3,3%. Dafür braucht ihr mindestens 35.000 Empfänger pro Variante. Nicht 35.000 insgesamt. Pro Variante.
Die meisten CRM-Teams testen mit 2.000 bis 5.000 Empfängern. Bei diesen Zahlen könntet ihr nur Unterschiede von 30% oder mehr zuverlässig erkennen. Solche Unterschiede kommen in der E-Mail-Welt fast nie vor.
Die Rechnung ist nicht kompliziert. Kostenlose Rechner gibt es genug, etwa Evan Miller, Optimizely oder AB Testguide. Dreißig Sekunden Aufwand. Trotzdem macht sie kaum jemand, weil die Tools den Eindruck erwecken, das sei nicht nötig.
Open Rate: Die Metrik mit dem meisten Rauschen
Zweiter Fehler: die Wahl der Metrik. Die meisten Teams testen auf Open Rate. Klingt logisch, Opens sind die erste messbare Interaktion.
Nur ist Open Rate die unzuverlässigste Metrik, die ihr messen könnt. Seit Apples Mail Privacy Protection (MPP) werden Opens künstlich aufgebläht. Apple lädt Tracking-Pixel vor, egal ob jemand die Mail tatsächlich öffnet. Je nach Zielgruppe können 40 bis 60% eurer Opens Phantome sein.
Wenn also Variante A eine Open Rate von 28% hat und Variante B 26%, könnte der gesamte Unterschied aus MPP-Rauschen bestehen. Ihr optimiert auf eine Zahl, die mit dem tatsächlichen Leseverhalten wenig zu tun hat.
Belastbarer wäre ein Test auf Click Rate oder, noch besser, auf Revenue per Recipient. Aber diese Metriken brauchen mehr Volumen und mehr Geduld. Click Rates liegen typischerweise zwischen 1% und 5%, was die benötigte Sample-Size vervielfacht. Revenue-Tests brauchen noch mehr, weil die Varianz höher ist.
Für viele CRM-Teams ist die Empfängerliste schlicht zu klein, um auf Revenue valide zu testen. Das ist in Ordnung, solange man es weiß und keine Schein-Entscheidungen daraus ableitet.
Vier Stunden sind kein Test
Dritter Fehler: die Laufzeit. Wir sehen regelmäßig Tests, die morgens gestartet und nachmittags ausgewertet werden. Vier Stunden, manchmal sechs.
E-Mail-Öffnungsverhalten hat Tageszeit-Effekte. Eine Mail, die um 9 Uhr morgens getestet wird, erreicht die Nachmittags-Öffner nicht. Wer nur den Morgen misst, bekommt ein verzerrtes Bild.
Minimum ist ein voller Sende-Zyklus: 24 Stunden. Besser sind 48 Stunden, damit auch späte Öffner und Wochenend-Effekte einfließen. Wenn eure Testgruppe zu klein ist, um in 48 Stunden genug Conversions zu sammeln, sagt euch das etwas: Dieser Test braucht entweder mehr Empfänger oder eine andere Metrik.
Die Kosten der Pseudo-Optimierung
Warum ist das mehr als ein akademisches Problem? Weil falsche Testergebnisse nicht neutral sind. Wenn ihr auf Basis von Zufallsrauschen optimiert, wählt ihr mit hoher Wahrscheinlichkeit die schlechtere Variante und verwerft die bessere. Über Dutzende von Tests pro Jahr kumuliert sich das.
Dazu kommt ein subtilerer Effekt: Pseudo-Ergebnisse schaffen falsches Vertrauen. Teams glauben, sie hätten ihre E-Mails optimiert, und suchen den Grund für stagnierende Performance woanders. Dabei hat die Optimierung nie stattgefunden.
Was ihr daraus mitnehmt
Fünf Punkte, die ihr ab dem nächsten Test anwenden könnt:
Hypothese vor dem Test formulieren. “Variante A wird besser performen” ist keine Hypothese. “Eine personalisierte Subject Line steigert die Click Rate um mindestens 15%” schon. Ohne Hypothese könnt ihr kein Ergebnis bewerten.
Primär-Metrik festlegen, und dabei bleiben. Entscheidet vor dem Test, ob ihr auf Open Rate, Click Rate oder Revenue optimiert. Wer nach dem Test die Metrik wechselt, findet immer einen “Gewinner”.
Sample-Size vorher berechnen. Nutzt einen kostenlosen Rechner. Gebt eure Baseline-Rate ein, den Minimum Detectable Effect, und 95% Konfidenz. Wenn die nötige Sample-Size größer ist als eure Liste, testet auf eine Metrik mit höherer Baseline oder akzeptiert, dass dieser Test nicht sinnvoll ist.
Mindestlaufzeit 24 Stunden. Kein Auswerten vor dem ersten vollen Sende-Zyklus. Richtet euch einen Reminder ein, statt ständig ins Dashboard zu schauen.
Erst bei Signifikanz entscheiden. Wenn euer Tool keine Signifikanz anzeigt, prüft manuell mit einem Chi-Quadrat-Test oder einem Online-Rechner. Liegt der p-Wert über 0,05: kein Gewinner. Das ist kein Misserfolg, das ist ein Ergebnis.
Der blinde Fleck bei A/B-Tests ist nicht mangelnde Testkultur. Die meisten Teams testen regelmäßig. Der blinde Fleck ist, dass die Tools den Eindruck erwecken, jeder Test liefere ein Ergebnis, während die Daten oft nur Rauschen zeigen. Wer das einmal verstanden hat, testet weniger, aber besser. Und trifft Entscheidungen, die tatsächlich auf Daten basieren.


