Γιατί το AI «κολλάει» και πώς το έλυσαν NVIDIA και OpenAI

Business

OpenAI, NVIDIA, AMD, Intel και Microsoft ανακοίνωσαν το MRC, ένα νέο πρότυπο που σταματά τις διακοπές στην εκπαίδευση AI μοντέλων και επιταχύνει την ανάπτυξή τους.

OpenAI and NVIDIA

Σύνοψη

  • Η OpenAI με τις AMD, Broadcom, Intel, Microsoft και NVIDIA ανακοίνωσε το MRC, ένα νέο πρότυπο δικτύου που εξαλείφει τα «κολλήματα» κατά την εκπαίδευση μεγάλων AI μοντέλων.

  • Το σύστημα στέλνει δεδομένα μέσω εκατοντάδες παράλληλες διαδρομές, ώστε μια βλάβη να μη σταματά ολόκληρη τη διαδικασία.

  • Είναι ανοιχτού κώδικα και χρησιμοποιείται ήδη σε πραγματικά συστήματα.

Η OpenAI ανακοίνωσε ένα νέο τεχνικό πρότυπο με την ονομασία MRC, που ανέπτυξε μαζί με τις AMD, Broadcom, Intel, Microsoft και NVIDIA. Σκοπός του είναι να σταματήσουν οι συνεχείς «κολλήματα» που εμφανίζονται κατά την εκπαίδευση μεγάλων AI μοντέλων — και που κοστίζουν εκατομμύρια σε χαμένο χρόνο.

Τι ακριβώς συμβαίνει σήμερα

Για να «μάθει» ένα AI μοντέλο — όπως το ChatGPT ή παρόμοια εργαλεία — χρειάζεται να επεξεργαστεί τεράστιες ποσότητες δεδομένων σε χιλιάδες ειδικά chips (GPU) ταυτόχρονα. Όλα αυτά τα chips επικοινωνούν μεταξύ τους μέσω δικτύου, και αν έστω ένα σημείο αυτής της επικοινωνίας «κολλήσει», η εκπαίδευση σταματά — σαν να κοπεί ένας κρίκος από αλυσίδα. Όσο μεγαλύτερο το σύστημα, τόσο πιο συχνά συμβαίνει αυτό.

Τι αλλάζει με το MRC

Το MRC λύνει το πρόβλημα στέλνοντας τα δεδομένα από εκατοντάδες διαφορετικές διαδρομές ταυτόχρονα, αντί για μία. Αν κάποια διαδρομή «πέσει», οι υπόλοιπες συνεχίζουν χωρίς διακοπή. Είναι σαν να πηγαίνεις από την Αθήνα στη Θεσσαλονίκη και αντί να μπλοκαριστείς σε ένα μποτιλιάρισμα, το σύστημα σε κατευθύνει αυτόματα σε εναλλακτικές διαδρομές χωρίς να το καταλάβεις. Το αποτέλεσμα: ο χρόνος αποκατάστασης από μια βλάβη μειώνεται από μερικά δευτερόλεπτα σε κλάσματα του δευτερολέπτου.

Το πρότυπο είναι ανοιχτού κώδικα — δηλαδή οποιαδήποτε εταιρεία μπορεί να το χρησιμοποιήσει δωρεάν — και χρησιμοποιείται ήδη σε πραγματικά συστήματα, όπως ο υπερυπολογιστής NVIDIA GB200.

Η άποψή μας στο Techblog

Το MRC δεν είναι κάτι που θα δεις στο κινητό σου, αλλά θα νιώσεις τα αποτελέσματά του: νέα AI εργαλεία που εκπαιδεύονται πιο γρήγορα σημαίνουν καλύτερες δυνατότητες στα προϊόντα που χρησιμοποιούμε καθημερινά. Το ότι πέντε ανταγωνιστικές εταιρείες συμφώνησαν να συνεργαστούν και να μοιραστούν αυτή τη λύση δωρεάν με όλον τον κλάδο, δείχνει πόσο σοβαρό ήταν το πρόβλημα που έλυσαν.

Προσθήκη ως προτεινόμενη πηγή στη Google

Συχνές Ερωτήσεις

Τι είναι το MRC που ανακοίνωσε η OpenAI;

Είναι ένα νέο τεχνικό πρότυπο δικτύου που αναπτύχθηκε από OpenAI, NVIDIA, AMD, Intel, Microsoft και Broadcom, για να σταματούν τα «κολλήματα» κατά την εκπαίδευση μεγάλων AI μοντέλων.

Τι σχέση έχει αυτό με εμένα ως χρήστη;

Όταν η εκπαίδευση AI γίνεται πιο γρήγορα και χωρίς διακοπές, τα AI εργαλεία που χρησιμοποιούμε καθημερινά βελτιώνονται πιο γρήγορα και με λιγότερο κόστος.

Γιατί σταματά η εκπαίδευση ενός AI μοντέλου;

Επειδή χιλιάδες chips πρέπει να επικοινωνούν μεταξύ τους συνεχώς, και αν έστω ένα σημείο της σύνδεσης αποτύχει, όλη η διαδικασία διακόπτεται.

Κοστίζει κάτι η χρήση του MRC;

Όχι — το πρότυπο δημοσιοποιήθηκε ανοιχτού κώδικα μέσω του Open Compute Project και είναι ελεύθερο για οποιαδήποτε εταιρεία.

Χρησιμοποιείται ήδη κάπου το MRC;

Ναι, είναι ήδη σε λειτουργία σε υπερυπολογιστές NVIDIA GB200 και σε υποδομές του Oracle Cloud.

Newsletter Techblog
Κάθε Παρασκευή στις 19:00 — smartphones, προσφορές, επιλογές. Χωρίς spam.

Με την εγγραφή σας αποδέχεστε την Πολιτική Απορρήτου.

Σχόλια

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Ροή ειδήσεων