Σε ένα υποθετικό αλλά απολύτως ρεαλιστικό σενάριο, ένας ασθενής που έχει μόλις διαγνωστεί με καρκίνο απευθύνεται σε ένα chatbot τεχνητής νοημοσύνης για να αναζητήσει πληροφορίες σχετικά με τις διαθέσιμες θεραπευτικές επιλογές. Η απάντηση που λαμβάνει είναι άρτια διατυπωμένη και συνοδεύεται από φαινομενικά αξιόπιστες επιστημονικές αναφορές. Ωστόσο, περιλαμβάνει ανακρίβειες, επινοημένες πηγές και στερείται βασικών προειδοποιήσεων. Αυτό διαπίστωσε μια ερευνητική ομάδα όταν υπέβαλε ιατρικές ερωτήσεις σε πέντε από τα πιο δημοφιλή chatbots.
Τα chatbots ChatGPT, Gemini, Grok, Meta AI και DeepSeek απάντησαν σε ιατρικές ερωτήσεις που κάλυπταν πέντε θεματικές κατηγορίες, όπως καρκίνος, εμβόλια, βλαστοκύτταρα, διατροφή και αθλητική απόδοση. Δύο ανεξάρτητοι ειδικοί αξιολόγησαν κάθε απάντηση. Διαπιστώθηκε ότι σχεδόν το 20% των απαντήσεων ήταν ιδιαίτερα προβληματικές, το 50% προβληματικές και το 30% μερικώς προβληματικές.
Καμία πλατφόρμα δεν παρήγαγε αξιόπιστες βιβλιογραφικές παραπομπές, ενώ μόνο σε δύο από τις 250 ερωτήσεις αρνήθηκαν κατηγορηματικά να απαντήσουν. Συνολικά, όλα τα chatbots είχαν παρόμοια απόδοση. Το Grok είχε τη χειρότερη επίδοση (58% προβληματικές απαντήσεις), ακολουθούμενο από το ChatGPT (52%) και το Meta AI (50%). Η σχετική μελέτη δημοσιεύθηκε στο επιστημονικό περιοδικό «BMJ Open».
Πού αποτυγχάνουν τα chatbots
Οι καλύτερες επιδόσεις καταγράφηκαν σε θέματα όπως τα εμβόλια και ο καρκίνος, όπου υπάρχει εκτενής και καλά τεκμηριωμένη επιστημονική γνώση. Παρ’ όλα αυτά, ακόμη και εκεί, περίπου το 25% των απαντήσεων κρίθηκε προβληματικό.
Οι σημαντικότερες αδυναμίες εντοπίστηκαν στους τομείς της διατροφής και της αθλητικής απόδοσης, όπου υπάρχουν συχνά αντικρουόμενες απόψεις και περιορισμένη ή λιγότερο ισχυρή επιστημονική τεκμηρίωση. Ιδιαίτερα προβληματικές αποδείχθηκαν οι ερωτήσεις ανοιχτού τύπου, καθώς το 32% των απαντήσεων χαρακτηρίστηκε ως σοβαρά εσφαλμένο, σε σύγκριση με μόλις 7% στις πιο συγκεκριμένες και στοχευμένες ερωτήσεις. Αυτό έχει σημασία, καθώς οι περισσότερες ερωτήσεις σχετικά με την υγεία στην καθημερινή ζωή είναι ανοιχτού τύπου.
Όταν οι ερευνητές ζήτησαν από κάθε chatbot δέκα επιστημονικές αναφορές, η μέση βαθμολογία ήταν μόλις 40%. Κανένα από τα chatbots δεν παρήγαγε πλήρως ακριβή λίστα αναφορών σε καμία από τις 25 δοκιμές. Τα σφάλματα περιλάμβαναν λανθασμένα ονόματα συγγραφέων, μη λειτουργικούς συνδέσμους και πλήρως επινοημένες πηγές.
Γιατί κάνουν λάθη τα chatbots
Υπάρχει ένας απλός λόγος για τον οποίο τα chatbots δίνουν λάθος απαντήσεις σε ιατρικά ερωτήματα. Τα μεγάλα γλωσσικά μοντέλα προβλέπουν τη στατιστικά πιο πιθανή επόμενη λέξη με βάση τα δεδομένα εκπαίδευσής τους που περιλαμβάνουν από επιστημονικά άρθρα μέχρι αναρτήσεις σε κοινωνικά δίκτυα και το συγκείμενο. Δεν αξιολογούν τα στοιχεία ούτε διατυπώνουν αξιακές κρίσεις.
Από την πλευρά τους, οι ερευνητές δεν έθεσαν ουδέτερες ερωτήσεις. Έθεσαν σκόπιμα ερωτήσεις που είχαν σχεδιαστεί για να ωθούν τα chatbots να δίνουν παραπλανητικές απαντήσεις – μια τυπική τεχνική στην έρευνα για την ασφάλεια της τεχνητής νοημοσύνης, γνωστή ως «red teaming».
Οι ερευνητές δοκίμασαν τις δωρεάν εκδόσεις κάθε μοντέλου που ήταν διαθέσιμες τον Φεβρουάριο του 2025. Οι επί πληρωμή εκδόσεις και οι νεότερες, ενδέχεται να έχουν καλύτερη απόδοση, διαπίστωσαν. Ωστόσο, οι περισσότεροι άνθρωποι χρησιμοποιούν τις δωρεάν εκδόσεις και οι περισσότερες ερωτήσεις σχετικά με την υγεία δεν είναι διατυπωμένες προσεκτικά.
Τι δείχνουν άλλες μελέτες
Άλλες μελέτες δείχνουν ότι, ενώ τα εν λόγω μοντέλα μπορούν να δώσουν σωστές απαντήσεις σε υψηλό ποσοστό, οι χρήστες συχνά δεν τις αξιοποιούν σωστά. Άλλες έρευνες δείχνουν επίσης ότι τα συστήματα αυτά μπορούν να επινοήσουν ιατρικούς όρους.
Μια μελέτη που δημοσιεύθηκε τον Φεβρουάριο στο περιοδικό «Nature Medicine» έδειξε κάτι πολύ ενδιαφέρον: Τα ίδια τα chatbots κατάφεραν να δώσουν τη σωστή ιατρική απάντηση σχεδόν στο 95% των περιπτώσεων. Παρ’ όλα αυτά, όταν οι ίδιες ερωτήσεις τέθηκαν από απλούς χρήστες, το ποσοστό των σωστών απαντήσεων ήταν 35%. Με άλλα λόγια, το πρόβλημα δεν περιορίζεται στο κατά πόσο το chatbot παρέχει τη σωστή πληροφορία, αλλά επεκτείνεται στο αν οι απλοί χρήστες μπορούν να την ερμηνεύσουν και να τη χρησιμοποιήσουν σωστά.
Μια πρόσφατη μελέτη που δημοσιεύθηκε στην επιστημονική επιθεώρηση «Jama Network Open» εξέτασε 21 κορυφαία μοντέλα τεχνητής νοημοσύνης. Οι ερευνητές ζήτησαν από τα συστήματα να προτείνουν πιθανές ιατρικές διαγνώσεις, παρέχοντάς τους μόνο βασικές πληροφορίες, όπως ηλικία, φύλο και συμπτώματα ασθενούς. Σε αυτό το πλαίσιο, τα μοντέλα δυσκολεύτηκαν σημαντικά, αποτυγχάνοντας να εντοπίσουν το σωστό εύρος πιθανών παθήσεων σε περισσότερο από το 80% των περιπτώσεων. Ωστόσο, όταν προστέθηκαν δεδομένα από εξετάσεις και εργαστηριακά αποτελέσματα, η ακρίβεια βελτιώθηκε εντυπωσιακά, ξεπερνώντας το 90%.
Εν τω μεταξύ, μια άλλη αμερικανική μελέτη, που δημοσιεύθηκε στο περιοδικό «Nature Communications Medicine», διαπίστωσε ότι τα chatbots επαναλάμβαναν πρόθυμα και μάλιστα επινοούσαν ιατρικούς όρους.
Συνολικά, οι μελέτες αυτές υποδεικνύουν ότι οι αδυναμίες που εντοπίστηκαν στη μελέτη του BMJ Open δεν είναι απλώς αποτέλεσμα μιας μεμονωμένης πειραματικής μεθόδου, αλλά αντανακλούν μάλλον μια πιο θεμελιώδη πτυχή της τρέχουσας κατάστασης της εν λόγω τεχνολογίας.
Τα chatbots δεν υποκαθιστούν την ιατρική γνωμάτευση. Μπορούν να συμβάλουν στην κατανόηση πληροφοριών ή στην προετοιμασία ερωτήσεων προς τους γιατρούς, αλλά δεν ενδείκνυται να χρησιμοποιούνται ως ανεξάρτητο εργαλείο λήψης ιατρικών αποφάσεων.
Πηγή: Science Alert
Κάνε like στη σελίδα μας στο Facebook
Ακολούθησε μας στο Twitter
Κάνε εγγραφή στο κανάλι μας στο Youtube
Γίνε μέλος στο κανάλι μας στο Viber
– Αναφέρεται ως πηγή το ertnews.gr στο σημείο όπου γίνεται η αναφορά.
– Στο τέλος του άρθρου ως Πηγή
– Σε ένα από τα δύο σημεία να υπάρχει ενεργός σύνδεσμος