Auswertung von "Das Forum wählte: Die Top 10-Filme des Jahres 2019 - Kino+ Jahresabschlussspezial"

lalaland · 4. Dezember 2019 um 21:25

Da benutzt er Jupitr Notebook . Hm… kann ich jetzt direkt nichts zu sagen hast du das Problem gegoogelt? Ich kann mich vielleicht morgen früh noch mal drann setzen und schauen, was der Bug ist. Bin nur grade auf den Weg ins Bett.

RobChang · 4. Dezember 2019 um 21:36

Ab irgendeiner Stelle des Forums hört er einfach auf zu lesen. Habe nun gerade Foldersliste an eine Stelle wo ich früher eine hatte die gelesen wurde und die wurde jetzt gerade auch gelesen.

lalaland · 4. Dezember 2019 um 21:42

Hmm… werde es mir morgen Früh mal ansehen. Bin erstmal raus. Falls du das Problem noch finden solltest, schreib bitte . Dann kann ich die Zeit anders nutzen ^^.

RobChang · 4. Dezember 2019 um 21:43

Klar

bitcoinfury · 4. Dezember 2019 um 22:05

Ok… du gleichst es mit IMDB ab

RobChang · 4. Dezember 2019 um 22:15

@FolderOfD00M
1,TIM
2,JKR
3,OTH
4,GRB
5,ABA
6,GLS
7,AEG
8,ADA
9,KLS
10,PST

Du musst einfach nur die Liste markieren und dann </> drücken dann sollte alles so aussehen wie hier An dir lags nicht

RobChang · 4. Dezember 2019 um 22:31

Also ab Post 20 wirdes nicht mehr gelesen. Und das obwohl es im Spam Thread beliebig viele Posts überspringen kann. An der reinen Zahl sollte es nicht liegen. Es taucht auch kein Stopzeichen auf, dass iwie sowas bewirken könnte. Keine Ahnung ich schlafe auch gleich ein ^^

lalaland · 5. Dezember 2019 um 06:22

Ah, okay dann habe ich einen Verdacht an was es liegt. Eine Seite in diesem Forum ist 20 Posts groß. Dann wird die nächste Seite geladen. Evtl. kann ich da weiterhelfen. Soweit ich weiß haben die Autoren vom Trump Twitter Archiv ein ähnliches Problem gehabt. Die haben es damit gelöst, dass sie einen Browser aufgerufen haben, der automatisch nach unten scrollt. Ich geb dir mal den Link zum Code. Damit der Läuft musst aber noch einen gecko Driver runterladen. Den Pfad zu Datei musst du dem entsprechend noch anpassen.

RobChang · 5. Dezember 2019 um 06:26

Genau das habe ich gerade auch herasugefunden dass es nur an der Url liegt weil jede post ne eigene hat und dass nur in der umgebung des startpunkts gelesen wird

Ich dachte schon daran die Url für den get code dynamisch laufen zu lassen also den startpunkt immer wieder zu verschieben aber so zuverlässig ist das nicht da es nicht imme 20 seiten sind, aber da ich eh auf doppelte einreichung checke wäre das nicht so schlimm beim einspeisen aber würde beim lesen etwas mehr zeit brauchen

lalaland · 5. Dezember 2019 um 06:40

Ne, das wird deutlich aufwendiger ich habe mir noch nicht so viele Gedanken gemacht, wie es genau abläuft. Das war gestern nur eine Idee. Der grobe Ablauf wäre:

Die Daten des Votingergebnis mit denen von IMDB zu verbinden und aufzubereiten.
Feature Engineering: Prüfen ob Kategorien, wie Genre, Schauspieler usw… als Features gut sind oder ob eine Kombination aus diesen gut ist. Um Features zu finden, kann man auch auf unsupervised Learning (Clustering K-Mean++) zurückgreifen. Ein Ranking kann man mit der Entropie oder dem Gini-Koeffizienten berechnen.
Machine Learining oder was gerne als AI bezeichnet wird: Da es sich um eine Klassifikation handelt, werde ich supervised Learning einsetzte. Und mich von logistic Regression zum Random Forest vorarbeiten, um zu evaluieren, welches Modell am besten passt. Neuronale Netze Fallen raus, weil ich denke, dass es am Ende zu wenig Daten dafür gibt und ich keinen Rechner mit 64GB RAM für den Spaß habe. Klassifiziert wird danach, wie ähnlich der zu bestimmende Film denen ist, die bei der Umfrage gut abgeschnitten haben.

Das ist so der grobe Plan.

lalaland · 5. Dezember 2019 um 06:49

Hier erst mal der Link zur Trump Twitter Archiv API:

Die scrape.py sollte dir evtl. weiterhelfen können.

Du hast schon recht, mach eine Loop und inkrementiere die letzte Zahl der URL, dass sollte gehen. Wenn du scrollst, dann verändert sich die letzte Zahl der URL.

Edit: Ich wusste nicht, dass der Link das tolle Bild enthält oO.

SirAmigo · 5. Dezember 2019 um 07:06

Hier ist meine persönlich Top 10-Liste:

Platz 1. The Beach Bum
Platz 2. Once Upon a Time in Hollywood
Platz 3. Green Book
Platz 4. Joker
Platz 5. Ad Astra
Platz 6. Avengers: Endgame
Platz 7. My Hero Academia: Two Heroes
Platz 8. Maquia: When the Promised Flower Blooms
Platz 9. Long Shot
Platz 10. Pokemon Detective Pikachu

Leider noch nicht gesehen, aber unbedingt auf der Watch-List sind noch Midsommar, Parasite, Marriage Story und The Irishman!

Und hier noch einmal die Liste, so wie sie RobChang haben möchte:

@SirAmigo 
1,TBB
2,OTH
3,GRB
4,JKR
5,ADA
6,AEG
7,MHA
8,MQA
9,LSH
10,DPK

RobChang · 5. Dezember 2019 um 07:11

Leider nicht ganz es fehlt auch hier noch die Code-Umgebung:

Einmal Liste markieren und </> drücken
Und du hättest auch gerne die Plätze als Zahl angeben können also beginnend mit 1,TBB… aber das ist auch ok. Falls du die Filme noch nachholen willst dann nur zu, sind noch 2 Wochen Zeit

Und nicht vergessen die Filmkürzel die du dir ausgedacht hast auch noch ins Archiv aufzunehmen, damit alle die gleichen benutzen ^^

RobChang · 5. Dezember 2019 um 07:19

@lalaland Jetzt klappts

Tadaa

lalaland · 5. Dezember 2019 um 07:20

Super gut !

Edit: Ich bin jetzt auch erst mal raus .

lalaland · 5. Dezember 2019 um 07:43

Okay, mit mir geht grade noch ein wenig die Fantasie durch. Wenn das Tool funktioniert, dann kannst du auch für die Community eine All Time Movie Top 10 machen .

RobChang · 5. Dezember 2019 um 07:55

Natürlich, das Programm lässt sich dann für alles benutzen, Spiele Serien Musik und beliebige Zeiträume ^^ Dann sollte iwann auch der Formalismus klar sein

In welcher Form brauchst du die Daten denn für deine Vorhersage haben ? Ich meine wenn ich dir das Endergebnis gebe gibts ja wenig spannedes vorherzusagen

lalaland · 5. Dezember 2019 um 08:10

JSON wäre sexy! CSV geht natürlich auch… Kannst mir alternativ auch einfach deinen Code per PM schicken, wenn er fertig ist. Das würde mir Arbeit sparen.

Ich muss mal schauen, ob es für die deutsche Sprache ein gutes Sentiment Analyse Tool gibt… Da hat man schon eine der größte Community für Natural Langugage Processing in Deutschland und keine Sau entwickelt ordentliche Tools… Dein Tool könnte ich dann, das gesamte Forum erweitern und bestimmen, ob die Community positiv oder Negativ drauf ist.

So viele Ideen und so wenig Zeit .

RobChang · 5. Dezember 2019 um 08:11

Ich meine welche Daten du haben willst

lalaland · 5. Dezember 2019 um 08:37

Alle Ergebnisse ^^. There is no data like more data .

Spaß bei Seite, eigentlich brauche ich nur das Ergebnis deines Rankings. Die Relative Häufigkeit der Bewertungen für die Filmen wäre noch ganz cool. Also so statistisches Standard Gedönz.