Το κινεζικό μοντέλο Τεχνητής Νοημοσύνης DeepSeek έχει κερδίσει μεγάλη προσοχή για τις προηγμένες ικανότητές του στη συλλογιστική, αλλά νέα ευρήματα υποδηλώνουν ότι η ενεργειακή του απόδοση μπορεί να είναι υπερτιμημένη. Παρόλο που χρησιμοποιεί μια πιο αποδοτική τεχνική «μείγματος ειδικών» κατά τη διάρκεια της εκπαίδευσης, η οποία ενεργοποιεί μόνο ένα μέρος των δισεκατομμυρίων παραμέτρων του, η φάση εξαγωγής συμπερασμάτων -όταν παράγει απαντήσεις- φαίνεται να καταναλώνει σημαντικά περισσότερη ενέργεια από παρόμοια μοντέλα.

Το DeepSeek χρησιμοποιεί μια μέθοδο συλλογισμού «αλυσίδας σκέψης», αναλύοντας πολύπλοκες ερωτήσεις σε λογικά βήματα για να παρέχει λεπτομερείς, διαφοροποιημένες απαντήσεις. Αυτή η προσέγγιση βελτιώνει τις επιδόσεις του σε εργασίες που απαιτούν λογική και επίλυση προβλημάτων, αλλά έχει ως αποτέλεσμα μεγαλύτερες απαντήσεις και μεγαλύτερη κατανάλωση ενέργειας. Οι αρχικές δοκιμές έδειξαν ότι το DeepSeek χρησιμοποιούσε περίπου 41% περισσότερη ενέργεια από το αντίστοιχο μοντέλο της Meta για την ίδια εργασία και 87% περισσότερη ενέργεια συνολικά λόγω των μακροσκελών απαντήσεών του, σύμφωνα με δημοσίευμα του MIT Technology Review.

Αυτή η αυξημένη ενεργειακή ζήτηση εγείρει ανησυχίες, ιδίως αν άλλες εταιρείες τεχνολογίας υιοθετήσουν παρόμοια μοντέλα συλλογισμού, ακυρώνοντας ενδεχομένως τα αναμενόμενα κέρδη αποδοτικότητας. Η ερευνήτρια ΤΝ Sasha Luccioni προειδοποιεί ότι η ευρεία υιοθέτηση αυτού του προτύπου θα μπορούσε να οδηγήσει σε αύξηση της κατανάλωσης ενέργειας, παρόμοια με τη μετάβαση από την εξαγωγική στην παραγωγική ΤΝ το 2022, η οποία αύξησε δραματικά τη χρήση ενέργειας.

Οι οικονομικές επιπτώσεις είναι σημαντικές: αν και οι βελτιωμένες δυνατότητες συλλογιστικής του DeepSeek είναι πολύτιμες, το υψηλό ενεργειακό κόστος θα μπορούσε να επηρεάσει τις επιχειρηματικές αποφάσεις. Ο πραγματικός αντίκτυπος θα γίνει σαφής μόνο όταν περισσότερες μελέτες αξιολογήσουν τις ενεργειακές απαιτήσεις αυτών των νέων μοντέλων συλλογιστικής.

Διαβάστε ακόμη