Taugen A/B-Tests überhaupt etwas? Eine Alternative…
Kommentare

Steve Hanov spricht sich in seinem Blog klar gegen A/B-Tests aus: Gängigerweise wird Gästen einer Website mit einer 50:50-Chance das alte oder das neue Layout gezeigt. Nach einer Weile ergeben dann Analysen,

Steve Hanov spricht sich in seinem Blog klar gegen A/B-Tests aus: Gängigerweise wird Gästen einer Website mit einer 50:50-Chance das alte oder das neue Layout gezeigt. Nach einer Weile ergeben dann Analysen, ob Kontrollgruppe A oder B mehr Page Impressions oder gar Conversions erzeugt hat.

Daher hat Hanov eine Methode vorgestellt, die an den Greedy-Algorithmus angelehnt ist. Diese unterstützt den Test von beliebig vielen zu testenden Designs und zeigt in 90 Prozent der Fälle das erfolgreichste an. Nur jeder zehnte Gast bekommt ein zufälliges, weniger erfolgreiches Design-Muster angezeigt. Dadurch erhält man eine optimalere Kombination aus bewährter und experimenteller Optik der Website als bei A/B-Tests, wo die Hälfte der Gäste potenziell mit einem Layout konfrontiert wird, das sie ablehnen.

Technisch läuft es so ab, dass über Ajax-Calls eine Redis-Datenbank mit den Daten gefüttert wird, die etwa der Klick auf den „Kaufen“-Button produziert: Kauft der Gast etwas, wird dies als Erfolg verbucht (reward), und in jedem Fall wird die Besucherzahl festgehalten. (Natürlich sind auch andere Erfolge wie „höchste Besuchsdauer“ denkbar.) Anhand dieser Daten wird dann von allen Test-Designs das erfolgreichste ermittelt und 90 Prozent der Gäste angezeigt (Exploitation). Die restlichen zehn Prozent werden mit einem der anderen Designs konfrontiert (Exploration). Während des gesamten Verfahrens können sich ständig die relativen Erfolgsquoten verschieben.

Und hier liegt ein weiterer Vorteil der Epsilon-Greedy-Methode: Neben beliebig vielen Test-Designs kann man beliebig viele Tests durchführen. Prinzipiell kann man diesen Test sogar dauerhaft betreiben und ständig die Liste der Test-Designs verändern.

Steve Hanov hat diese Methode schon vielen Kollegen vorgestellt, doch hört er oft Einwände wie:

  • „Wenn ich nicht alles gleich oft anzeige, bekomme ich verzerrte Ergebnisse“ (Wo Hanov entgegensetzt, dass man immer einen Überschlag für die Click-Through-Rate für jedes Design erhält)
  • „Dieses System passt sich Veränderungen nicht an“ (Hanov sagt, die Besucher ändern sich wahrscheinlich nicht. Aber wenn man das neue Design promoten will, kann man in der Reward-Funktion einen Vorfaktor zur Benachteiligung des alten Designs einbauen)
  • „Damit kann man nicht mehrere, voneinander abhängige Änderungen testen“ (Hanov: Das stimmt, doch das können A/B-Tests auch nicht leisten)
  • „Was tue ich, wenn ich erst in 30 Tagen weiß, wie viel der Klick wirklich wert ist? Wie lasse ich sowas in mein Reward-System einfließen?“ (Keine Antwort)
Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -