Οκτώ από τα πιο προηγμένα συστήματα τεχνητής νοημοσύνης στον κόσμο δοκιμάστηκαν σε μια εικονική αναπαράσταση της σεζόν 2023-24 της Premier League, με καθένα να ξεκινά με κεφάλαιο £100.000 για στοιχήματα. Το αποτέλεσμα; Κανένα δεν βγήκε κερδισμένο. Η μελέτη «KellyBench», που δημοσίευσε αυτή την εβδομάδα η λονδρέζικη εταιρεία General Reasoning, αναδεικνύει τα όρια της AI σε σενάρια του πραγματικού κόσμου με μακροπρόθεσμο ορίζοντα.
Το πείραμα
Η General Reasoning έδωσε στα AI συστήματα λεπτομερή ιστορικά δεδομένα, στατιστικά κάθε ομάδας και αποτελέσματα προηγούμενων αγώνων. Κάθε μοντέλο έπρεπε να χτίσει τη δική του στρατηγική στοιχήματος — μεγιστοποιώντας αποδόσεις και διαχειριζόμενο κίνδυνο — και να στοιχηματίζει σε αποτελέσματα αγώνων και αριθμό γκολ καθώς η σεζόν εξελισσόταν. Κανένα μοντέλο δεν είχε πρόσβαση στο διαδίκτυο κατά τη διάρκεια του πειράματος, και σε κάθε σύστημα δόθηκαν τρεις ξεχωριστές προσπάθειες.
Τα AI συστήματα που δοκιμάστηκαν προέρχονταν από τις Google, OpenAI, Anthropic και xAI — δηλαδή τους μεγαλύτερους παίκτες του κλάδου. Κανένα δεν κατάφερε να κλείσει θετικά το σύνολο των προσπαθειών του.
Ποιος τα πήγε καλύτερα — και πόσο
Το Claude Opus 4.6 της Anthropic ήταν το λιγότερο κακό: κατέγραψε μέση απώλεια 11% κατά τη διάρκεια της σεζόν. Το Gemini 3.1 Pro της Google κατάφερε κέρδος 34% σε μία από τις τρεις προσπάθειές του, αλλά χρεοκόπησε σε άλλη. Το Grok 4.20 της xAI ήταν το χειρότερο: χρεοκόπησε σε μία προσπάθεια και δεν κατάφερε να ολοκληρώσει τις άλλες δύο.
Οι συγγραφείς της μελέτης συνοψίζουν με σαφήνεια: κάθε μοντέλο που αξιολογήθηκε έχασε χρήματα κατά τη διάρκεια της σεζόν, και πολλά βίωσαν πλήρη κατάρρευση της επένδυσής τους. Η τεχνητή νοημοσύνη υποαπέδωσε συστηματικά σε σύγκριση με ανθρώπινους αναλυτές στο ίδιο σενάριο.
Γιατί η AI δυσκολεύεται σε αυτό το είδος εργασιών
Ο Ρος Τέιλορ, διευθύνων σύμβουλος της General Reasoning, εξήγησε στους Financial Times ότι υπάρχει μεγάλος ενθουσιασμός για τον αυτοματισμό AI, αλλά ελάχιστη αξιολόγηση της απόδοσής του σε μακροπρόθεσμο ορίζοντα. Σύμφωνα με τον ίδιο, τα περισσότερα benchmarks που χρησιμοποιούνται για τον έλεγχο AI ορίζονται σε «πολύ στατικά περιβάλλοντα» που δεν αντικατοπτρίζουν το χάος και την πολυπλοκότητα του πραγματικού κόσμου. Το ποδόσφαιρο, με τους τραυματισμούς, τις τακτικές αλλαγές και την απρόβλεπτη φύση του, αποτελεί ακριβώς τέτοιο περιβάλλον.
Η μελέτη δεν έχει ακόμα αξιολογηθεί από ομότιμους ερευνητές (peer review), ωστόσο τα ευρήματά της προσφέρουν ένα σημαντικό αντίβαρο στις υπερβολές της Silicon Valley για την ικανότητα της AI να αντικαταστήσει ανθρώπινη κρίση σε σύνθετα, δυναμικά περιβάλλοντα.
Η άποψή μας στο Techblog
Το πείραμα αυτό είναι χρήσιμη υπενθύμιση για τους χρήστες που ίσως έχουν ακούσει ότι το AI «τα ξέρει όλα»: τα μοντέλα τα πάνε εξαιρετικά σε προβλήματα με σαφείς κανόνες, αλλά δυσκολεύονται όταν πρέπει να προσαρμοστούν σε ένα χαοτικό και συνεχώς μεταβαλλόμενο περιβάλλον. Το ποδόσφαιρο — και η αγορά στοιχημάτων — παραμένουν ακόμα προνομιακά πεδία της ανθρώπινης κρίσης.
Σχόλια
Προσθήκη σχόλιου