Δεδομένης της εκτεταμένης προσοχής που έχει προσελκύσει το ChatGPT και υπό το πρίσμα της ανησυχίας για τις πιθανές ακαδημαϊκές χρήσεις του, θεμιτές και όχι, η αμερικανική ένωση λογιστικής (American Accounting Association – ΑΑΑ) μελέτησε την απόδοση του chatbot σε θέματα εξετάσεων της λογιστικής επιστήμης.

Συνολικά, συνεργάστηκαν 328 ακαδημαϊκοί από 186 εκπαιδευτικά ιδρύματα σε 14 χώρες, στην επιλογή και διατύπωση 28.085 ερωτήσεων από λογιστικές εξετάσεις και τράπεζες θεμάτων, αναφορικά με πεδία όπως:

λογιστικά πληροφοριακά συστήματα (AIS), έλεγχος, χρηματοοικονομική και διοικητική λογιστική, καθώς επίσης φορολογία.

Οι φοιτητές λογιστικής σημείωσαν ποσοστό επιτυχίας 76,7% κατά μέσο όρο και το ChatGPT 47,5%, λαμβάνοντας υπ’ όψιν μόνο τις απολύτως σωστές απαντήσεις.

Το ChatGPT σημείωσε μεγαλύτερη επιτυχία στα πεδία AIS (76,8%) και audit (83,1%), σε σχέση με τα πεδία φορολογίας, χρηματοοικονομικής και διοικητικής λογιστικής. Τα πήγε καλύτερα όπου οι απαντήσεις ήταν της μορφής σωστό/λάθος και στις ερωτήσεις multiple choice, πετυχαίνοντας βαθμολογία 68,7% και 59,5%, αντιστοίχως.

Στις ερωτήσεις που απαιτούσαν υπολογισμούς ή σύντομες απαντήσεις, η ακρίβεια του ChatGPT έφθανε το 28,7% και 39,1%, αντιστοίχως.

Σημειώνεται ότι ερωτήσεις σχετικά με τη συμμόρφωση ως προς τους ηθικούς κώδικες συμπεριφοράς, ερωτήσεις που περιέχουν εικόνες και ερωτήσεις σχετικά με συγκεκριμένες δραστηριότητες της διδακτικής αίθουσας, δεν μπορούσαν να απαντηθούν από το ChatGPT.

Μία από τις ανησυχίες των ακαδημαϊκών είναι ότι, αν chatbots όπως το ChatGPT σημειώνουν καλές επιδόσεις σε ερωτήσεις λογιστικού περιεχομένου, ενδέχεται να αποτελέσουν τρόπο για να «κλέβουν» στις εξετάσεις οι φοιτητές. Από την άλλη, θα μπορούσαν να χρησιμοποιηθούν ως εργαλείο για να βοηθήσουν τους φοιτητές να σχεδιάσουν πρακτικές ασκήσεις, να εμβαθύνουν στο λογιστικό περιεχόμενο και να βελτιώσουν τη μάθησή τους.

Το αν θα χρησιμοποιηθούν θετικά ή αρνητικά, θα εξαρτηθεί εν τέλει από την ακρίβειά τους στις απαντήσεις που δίνουν.

Επιπλέον, η ικανότητά τους να «γράφουν» καλά σε εξετάσεις, θα μπορούσε να οδηγήσει σε μορφές ΤΝ που θα αντικαταστήσουν στην πράξη τους λογιστές, κάτι που έχει συζητηθεί ευρέως.

Στην έκθεση περιλαμβάνονται και κάποια πρόσθετα ευρήματα που προέκυψαν από τη μελέτη, όπως για παράδειγμα:

  • Το ChatGPT δεν αναγνώριζε πάντα ότι έκανε μαθηματικές πράξεις και έκανε απλοϊκά λάθη, όπως το να προσθέτει σε πράξη αφαίρεσης ή να διαιρεί με λάθος τρόπο.
  • Συχνά εξηγούσε περιφραστικά τις απαντήσεις του, ακόμη κι αν δεν ήταν σωστές, ή έδινε ακριβείς περιγραφές, αλλά οι multiple-choice απαντήσεις του δεν ήταν σωστές.
  • Μερικές φορές επινοούσε δεδομένα, κατασκευάζοντας, για παράδειγμα, αληθοφανείς αλλά εντελώς πλαστές παραπομπές σε ανύπαρκτα έργα και συγγραφείς.
  • Έδειξε ικανότητα παραγωγής εξειδικευμένου κειμένου, όπως πίνακες, σε διάφορες μορφές, π.χ. ως κατάλογο ονομάτων και ποσών, ως επικεφαλίδες, ονόματα λογαριασμών, χρεώσεις και πιστώσεις.
  • Δυσκολεύθηκε να απαντήσει σε ερωτήσεις multiple choice που περιέγραφαν καταστάσεις και ζητούσαν από τους εξεταζόμενους να επιλέξουν ένα concept που να αντιστοιχεί σε αυτήν την κατάσταση.
  • Συχνά δεν μπορούσε να αξιολογήσει και να αναλύσει περίπλοκα νοήματα με υπονοούμενα, αλλά απέδιδε καλύτερα σε ερωτήσεις που απαιτούσαν μικρότερη κριτική ικανότητα.
  • Αν δεν μπορούσε να απαντήσει ευθέως σε μια ερώτηση, έδινε λεπτομερείς οδηγίες για το πώς να συμπληρωθεί η ερώτηση.
  • Όπου η ερώτηση εμφανιζόταν περισσότερες φορές, οι απαντήσεις του ChatGPT διέφεραν κάθε φορά, αλλά δεν εξελίσσονταν πάντα από το λάθος προς το σωστό.

Σύμφωνα με τους ερευνητές, μια ελάχιστα κατανοητή πρόκληση στη χρήση των chatbots Τεχνητής Νοημοσύνης με στόχο την εκμάθηση, είναι η δυνατότητα του bot να συνεχίσει να μαθαίνει. Για παράδειγμα, σε μία καταγεγραμμένη συναλλαγή με χρήστη, το ChatGPT αρχικά έδωσε εσφαλμένη πληροφορία. Ο χρήστης επεσήμανε το πρόβλημα, το ChatGPT ζήτησε συγγνώμη, αναγνώρισε το λάθος του, έκανε την σωστή σύνδεση και ευχαρίστησε τον χρήστη που τού το επεσήμανε, δηλώνοντας ότι θα το θυμάται σε μελλοντικές συναλλαγές.

Η ερευνητική ομάδα όντως δοκίμασε τον ισχυρισμό αυτόν λίγες ημέρες αργότερα, με διαφορετικό χρήστη και το bot ανταποκρίθηκε σωστά. Το πώς η μαθησιακή φύση αυτών των αλγορίθμων θα επηρεάσει τους χρήστες αποτελεί σημαντικό ερώτημα. Θα το εκπαιδεύσουν οι χρήστες να είναι περισσότερο ή λιγότερο σωστό; Πόσο γρήγορα θα μεταβάλλεται; Πόση εμπιστοσύνη θα τού δείχνουν οι χρήστες, από τη στιγμή που το μοντέλο αυτό θα μπορεί να γίνει περισσότερο ή λιγότερο ακριβές συν τω χρόνω, χωρίς όμως να υπάρχει η ένδειξη ως προς την κατεύθυνση προς την οποία κινείται;