Die Behauptung, dass Formate mit Beteiligung der Hauptbohnen besser performen, hab ich heute Morgen statistisch gegengecheckt. Kurz zur Methode, um die Ergebnisse einordnen zu können: Ich habe 100 zufällige Videos vom RBTV Hauptkanal ausgewählt, die vor 1-2 Jahren hochgeladen wurden. Dadurch sind zwar Videos von vor der Senderumstellung mit solchen von nach der Umstellung vermengt, aber zumindest sollten alle Videos alt genug sein, um hinsichtlich Views repräsentativ zu sein.
Anschließend habe ich für jedes Video festgehalten, ob eine der Hauptbohnen beteiligt war, oder nicht. Dabei reicht es, wenn die Bohne zu sehen war (d.h., wenn bei einem Best-Of ein Wortwitz von Nils dabei war, zählte das Video als „Mit Hauptbohne“). 52 Videos waren mit Beteiligung einer Hauptbohne, 48 dementsprechend ohne.
Als statistischen Test habe ich einen Wilcoxon-Rangsummentest verwendet. Kurz zur Idee, wie der Test funktioniert (ohne auf die Mathematik dahinter einzugehen): Man bildet zwei Listen (eine für die Videos mit Hauptbohnen, eine für die Videos ohne) und ermittelt die Ränge in der gemeinsamen Liste betrachtet. Beispiel:
- Video 1 ohne Hauptbohnen hat 3000 Views
- Video 2 ohne Hauptbohnen hat 2000 Views
- Video 3 ohne Hauptbohnen hat 1000 Views
- Video 4 mit Hauptbohnen hat 4000 Views
- Video 5 mit Hauptbohnen hat 500 Views
- Video 6 mit Hauptbohnen hat 6000 Views
Video 5 bekommt Rang 1 (da es insgesamt die wenigsten Views hat), Video 3 Rang 2 etc. Das heißt, man erhält für Videos ohne Hauptbohnen die Ränge 2, 3, 4 und für Videos mit Hauptbohnen 1, 5, 6. Anschließend schaut man, ob die Ränge gleichmäßig vermischt sind. Wenn jetzt die Videos mit Hauptbohnen die ganzen oberen Ränge hätten (4, 5 und 6) spräche das statistisch dafür, dass diese häufiger geschaut werden. Wie stark es dafür spricht, wird mit dem sog. p-Wert beziffert. Auch hier spare ich mir eine Erklärung, aber unterhalb eines p-Wertes von 5% spricht man landläufig von statistischer Signifikanz und nimmt an, dass die Hypothese (bei Wilcoxon: dass die Videos mit bzw. ohne Hauptbohnen sich hinsichtlich Views nicht unterscheiden) widerlegt ist, es also einen „statistisch signifikanten“ Unterschied gibt.
Der Wilcoxon-Test hat den Vorteil, dass man keine Annahme treffen muss, wie Views statistisch verteilt sind (z.B. Gaußverteilt), braucht dafür aber tendenziell größere Stichproben. Bei den 2x3 im Beispiel ist es schwierig, einen klaren Trend zu erkennen - auch der Fall, dass die Videos mit Hauptbohnen die hohen Ränge haben, ist noch recht wahrscheinlich. 48 bzw. 52 sollte aber in Ordnung sein, um mittlere bis größere Effekte zu erkennen. Für diese liefert der Test einen p-Wert von ca. 0.0005 bzw. 0.05%, was dafür spräche, dass Videos mit Hauptbohnen mit hoher statistischer Signifikanz stärker geklickt werden. Plottet man die Videodaten, ist dieser Trend auch erkennbar:
Der Tetst und die Daten unterliegen natürlich Einschränkungen; auf ein paar habe ich eingangs schon hingewiesen. Hinzu kommt beispielsweise, dass verschiedene Formate vermischt werden. Wenn Bohndesliga strukturell besser performt, weil mehr Menschen sich für Fußball interessieren (oder für Tobias Escher) als für Brettspiele (Du bist!), kann das mit Hilfe des Tests nicht erkannt werden. Der beachtet nur, dass in Bohndesliga in aller Regel min. eine Hauptbohne anwesend ist, während das bei Du bist! seltener der Fall ist. Es werden auch übrige externe Faktoren nicht berücksichtigt (z.B. wird ein kurzes 2min Video zum Senderwechsel erwartbar häufiger geklickt, als eine beliebige Zwohndesligafolge).
Um solche Effekte erfassen zu können, bräuchte es mehr Daten. Aber dafür war ich zu faul (Views und Alter der Videos kann man sich noch gut automatisiert beschaffen, zu schauen, ob und welche Bohnen in einem Video vorkommen, nicht).
Insgesamt spräche diese Stichprobe und diese Art der Auswertung dafür, dass Videos mit Hauptbohnen häufiger geschaut werden bzw. diese in Formaten stattfinden, die häufiger geschaut werden.