Η NVIDIA παρουσίασε το Nemotron 3 Nano Omni, ένα ανοιχτό multimodal μοντέλο με 9x throughput για AI agents νέας γενιάς.
Σε πιο σύνθετα agentic συστήματα, το Nemotron 3 Nano Omni μπορεί να λειτουργεί παράλληλα με το Nemotron 3 Super για εκτέλεση υψηλής συχνότητας και με το Nemotron 3 Ultra για πιο σύνθετο σχεδιασμό. Συνεργάζεται επίσης με μοντέλα τρίτων κατασκευαστών, λειτουργώντας ως sub-agent αντίληψης μέσα σε μεγαλύτερα pipelines. Σύμφωνα με την NVIDIA, η οικογένεια Nemotron 3 — Nano, Super και Ultra — έχει συγκεντρώσει πάνω από 50 εκατομμύρια downloads τον τελευταίο χρόνο. Με την έκδοση Omni, η οικογένεια επεκτείνεται σε multimodal και agentic περιπτώσεις χρήσης.
Διαθεσιμότητα και ανάπτυξη
Το μοντέλο διατίθεται με open weights, μαζί με τα datasets και τις τεχνικές εκπαίδευσης. Είναι ήδη διαθέσιμο μέσω Hugging Face, OpenRouter και του build.nvidia.com ως microservice NVIDIA NIM, καθώς και μέσω 25 και πλέον συνεργαζόμενων πλατφόρμων. Οι developers μπορούν να το προσαρμώσουν με εργαλεία όπως το NVIDIA NeMo, ενώ η ανάπτυξη γίνεται από τοπικά συστήματα NVIDIA Jetson, DGX Spark και DGX Station έως data center και cloud περιβάλλοντα.
Ανάμεσα στις εταιρείες που υιοθετούν ήδη το Nemotron 3 Nano Omni είναι οι Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir και Pyler. Σε φάση αξιολόγισης βρίσκονται οι Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle και Zefr.
Η άποψή μας στο Techblog
Η ενοποίηση εικόνας, ήχου και κειμένου σε ένα μοντέλο φαίνεται απλή ιδέα, αλλά είναι αυτή που θα κρίνει αν τα AI agents θα γίνουν τελικά πρακτικά εργαλεία για καθημερινή χρήση ή θα μείνουν εντυπωσιακά demos. Όσο πιο γρήγορα και αξιόπιστα «καταλαβαίνει» ένας agent τι βλέπει στην οθόνη και τι ακούει, τόσο πιο χρήσιμος γίνεται για κάποιον που θέλει να αυτοματοποιήσει εργασίες γραφείου, υποστήριξης ή ανάλυσης εγγράφων. Το ότι το μοντέλο διατίθεται ανοιχτό αλλάζει επίσης την εικόνα για όσους θέλουν να φτιάξουν δικές τους λύσεις χωρίς εξάρτηση από κλειστά cloud APIs.
Σχόλια