Ich hab mich mal gefragt, was man über die bisherigen Folgen Verflixxte Klixx statistisch so aussagen kann. Vermutlich hat sich das noch nie jemand anderes gefragt, aber ich dachte ich teile mal meine Erkenntnisse mit euch. (Ja, ich hatte etwas zu viel freie Zeit…)
Ich habe die Daten, die in der Pufopedia stehen verwendet (und die letzten paar Folgen von hand eingetragen). Ich habe alle Folgen, auch die der Staffel 0 vor RBTV-Zeiten, verwendet. Dabei ignoriere ich die zwei Folgen, in denen nicht Lars sondern DeChangeman gespielt hat. Zudem gab es da einmal ein Unentschieden, das für manchen Aspekte auch ignoriert wird. Wer sich die Rohdaten anschauen will, die sind hier in einem Spreadsheet.
Zuerst kommen einfach ein paar Zahlen mit Diagrammen. Dann schaue ich noch, ob Lars eigentlich wirklich (statistisch signifikant) besser spielt als Florentin. Ich hoffe ich habe keine Fehler gemacht, wenn es an die Statistik geht. Wenn jemandem etwas auffällt, gerne drauf hinweisen. Und wenn noch jemand eine Idee hat, was man sich da anschauen könnte, immer her damit.
Siege
- Lars: 71
- Florentin: 53
Geierkönige
- Lars: 53
- Florentin: 15
Gesamtpunkte
- Lars: 1560
- Florentin: 1314
Mittelwert der Punkte bisheriger Folgen
- Lars: 12.5 ± 10.7
- Florentin 10.5 ± 8.0
Längste Siegessträhne
- Lars: 6 (schon dreimal)
- Florentin: 4
Höchstes Abstimmung für den Geierkönig
- Lars: 89% (S2E69)
- Florentin: 83% (S2E30)
Höchste Punktzahl am Ende einer (regulären) Folge
- Lars: 87 (S0E3)
- Florentin: 56 (S2E58) (198 Punkte gegen DeChangeman in S0E12)
Jetzt zu der Frage, ob Lars wirklich signifikant besser ist als Florentin.
Als erstes schauen wir uns die Anzahl der Siege an. Wen nicht interessiert, was ich da mache, und nur das Ergebnis wissen will, kann bis zum tl;dr vorspringen.
Also wir stellen die Nullhypothese auf, dass Lars und Florentin eigentlich gleich gut sind. Das würde bedeuten, dass jede Folge einer von beiden mit 50% Wahrscheinlichkeit gewinnt. Es handelt sich also um einen Bernoulli-Prozess, der einer Binomialverteilung folgt. Wir legen user Signifikanzniveau auf 5% fest (das sagt im wesentlichen, wie hoch das Risiko ist ein false positive zu erhalten).
Jetzt fragen wir uns, wie wahrscheinlich ist es, dass Florentin unter der Annahme der Nullhypothese so schlecht (oder schlechter) abschneidet. Also die Wahrscheinlichkeit, dass er höchstens 53 Folgen gewinnt. Liegt dieser Wert (der p-Wert) unter unserem Signifikanzniveau, ist es sehr unwahrscheinlich, dass unsere Nullhypothese Stimmt. Florentin wäre also wirklich schlechter. Andersherum ist es durchaus wahrscheinlich, dass es nur Pech ist.
Zum aktuellen Zeitpunkt ist der p-Wert 0.063 oder 6.3%. Liegt also über dem Signifikanzniveau von 5%.
tl;dr: Lars gewinnt nicht signifikant mehr Folgen als Florentin!
Als zweites könne wir uns noch fragen, ob Lars signifikant mehr Punkte in jeder Folge macht als Florentin.
Ich habe hier den Zweistichproben-t-Test verwendet. Ich gehe hierbei davon aus, dass die Anzahl der Folgen groß genug ist, dass der zentrale Grenzwertsatz anwendbar ist. Die Nullhypothese lautet, dass Lars im Mittel nicht mehr Punkte also Florentin pro Folge macht (rechtsseitiger Test).
Den ganzen t-Test erkläre ich jetzt hier nicht, kann man recht schön auf Wikipedia nachlesen. Die Idee ist, zu überprüfen, ob zwei Stichproben aus zwei Grundgesamtheiten mit gleichem Mittelwert gezogen wurden. Ich verwendet hierbei die Variante bei der davon ausgegangen wird, dass beide Grundgesamtheiten die gleiche Standardabweichung haben. Ich bin mir nicht sicher, in wie weit die Annahme gerechtfertigt ist. Man könnte sich also auch noch den Welch-Test (verschiedene Standardabweichungen) anschauen.
tl;dr: Das Ergebnis ist, dass Lars nicht signifikant mehr Punkte holt als Florentin.
Also wir sehen, dass Florentin offenbar einfach etwas Pech hat, auch wenn es teilweise sehr knapp an der Grenze zur statistischen Signifikanz ist. Zumindest diesen simplen Tests nach zu urteilen.
Was haltet ihr davon (abgesehen davon, dass das ganz schöne Zeitverschwendung war), glaubt ihr der Statistik oder ist Lars doch einfach der unangefochtene Fischmeister?
Und hat noch jemand eine Idee was mach sich da mal anschauen könnte?