Τεχνητή νοημοσύνη και πρόβλεψη αντίληψης ήχων μιας δεύτερης γλώσσας


ΤΟΥ ΔΡΟΣ ΓΙΩΡΓΟΥ ΓΕΩΡΓΙΟΥ*

Η μηχανική μάθηση θεωρείται ως υποσύνολο της τεχνητής νοημοσύνης, καθώς επιτρέπει τον εντοπισμό σημαντικών προτύπων από παραδείγματα που παρέχονται κατά τη διάρκεια της εκπαίδευσης. Την τελευταία δεκαετία, η χρήση των τεχνικών μηχανικής μάθησης έχει επεκταθεί στην πρόβλεψη των μοτίβων αντίληψης της ομιλίας μη μητρικής γλώσσας. Αυτό βασίζεται στις άμεσες ή έμμεσες παραδοχές πολλών μοντέλων ομιλίας ότι η φωνητική ομοιότητα μεταξύ των ήχων της πρώτης γλώσσας (Γ2) και της δεύτερης γλώσσας (Γ2) μπορεί να προβλέψει την αντίληψη των ήχων στη Γ2.

Έρευνα που δημοσιεύτηκε στο έγκριτο επιστημονικό περιοδικό ScientificReports, το 5ο περιοδικό με τις περισσότερες αναφορές στον κόσμο και το οποίο αποτελεί μέρος του διάσημου περιοδικού Nature, από τον Δρα Γιώργο Γεωργίου, Επίκουρο Καθηγητή Γλωσσολογίας στο Πανεπιστήμιο Λευκωσίας, στοχεύει στο να αξιολογήσει πόσο καλά ευθυγραμμίζονται οι μηχανές με την αντίληψη της ανθρώπινης ομιλίας. Συγκεκριμένα, αξιολογήθηκε η ικανότητα τριών αλγορίθμων μηχανικής μάθησης, συγκεκριμένα, της γραμμικής διακριτικής ανάλυσης (LDA), του δέντρου αποφάσεων (C5.0) και του νευρωνικού δικτύου (NNET) στο να προβλέπουν την ταξινόμηση των φωνηέντων της Γ1 των ομιλητών στις κατηγορίες της Γ2. Το πώς ταξινομούμε τους ήχους μιας Γ2 σε σχέση με αυτούς της Γ1 μας θα καθορίσει το πόσο εύκολα θα μάθουμε να διαχωρίζουμε τους ανοίκειους ήχους στη Γ2, ώστε να έχουμε καλύτερη επικοινωνιακή επάρκεια.

Τα μοντέλα εκπαιδεύτηκαν χρησιμοποιώντας τους τρεις πρώτους διαμορφωτές και τη διάρκεια των φωνηέντων της κυπριακής ελληνικής (Γ1) και τροφοδοτήθηκαν με τα ίδια ακουστικά χαρακτηριστικά των φωνηέντων της αγγλικής (Γ2). Για να αξιολογηθεί η ακρίβειά των αλγορίθμων, ενήλικες ομιλητές φυσικοί ομιλητές της κυπριακής ελληνικής που μιλούσαν την αγγλική ως Γ2 έλαβαν μέρος σε ένα ψυχοακουστικό τεστ κατηγοριοποίησης φωνηέντων. Τα αποτελέσματα έδειξαν ότι το νευρωνικό δίκτυο παρείχε την καλύτερη απόδοση ως προς τις προβλέψεις, ακολουθούμενο με μικρή διαφορά από τη διακριτική ανάλυση. Ο αλγόριθμος του δέντρου αποφάσεων δεν πληρούσε τα αναμενόμενα επίπεδα απόδοσης. Η καλύτερη απόδοση του νευρωνικού δικτύου οφείλεται στο ότι χρησιμοποιεί τεχνικές βαθιάς μάθησης με τη χρήση μοντέλων εκπαίδευσης που περιλαμβάνουν πολλαπλά νευρωνικά επίπεδα. Μια τέτοια αρχιτεκτονική μπορεί να συλλάβει αφηρημένα και υψηλού επιπέδου χαρακτηριστικά, παρέχοντας ένα πλεονέκτημα έναντι απλούστερων αλγορίθμων όπως η διακριτική ανάλυση και το δέντρο αποφάσεων. Οι ικανότητες του νευρωνικού δικτύου δεν περιορίζονται μόνο στην εξέταση απλών αλληλεπιδράσεων αλλά στην επιθεώρηση διαφόρων συνδυασμών πρόβλεψης, δημιουργώντας κρυφούς κόμβους ως σταθμισμένες εξόδους πολλών μεταβλητών. Επιπλέον, το νευρωνικό δίκτυο χαρακτηρίζεται από υψηλή ευελιξία και προσαρμοστικότητα, καθώς οι εσωτερικές του παράμετροι μπορούν να προσαρμοστούν, ώστε να ευθυγραμμίζονται καλύτερα με τα υποκείμενα μοτίβα που είναι εγγενή στο σύνολο δεδομένων. Επιπλέον, λαμβάνοντας υπόψη ότι τα γραμμικά όρια μεταξύ κατηγοριών σε νυδιάστατους χώρους δεν ισχύουν πάντα στην αντίληψη της ανθρώπινης ομιλίας και ότι το νευρωνικό δίκτυο έχει την ικανότητα να κατανοεί σύνθετες και μη γραμμικές σχέσεις, η καλύτερη απόδοσή του σε σχέση με τη διακριτική ανάλυση, που βασίζεται σε γραμμικές σχέσεις, είναι κατά κάποιο τρόπο αναμενόμενη. Ωστόσο, η απόδοση της διακριτικής ανάλυσης ήταν κοντά σε αυτή του νευρωνικού δικτύου. Μία πιθανή ερμηνεία είναι το ότι η πολυπλοκότητα της σχέσης μεταξύ των κατηγοριών των Γ1 και Γ2 μπορεί να μην είναι σε μεγάλο βαθμό μη γραμμική, εξηγώντας έτσι τη σχετικά παρόμοια ακρίβεια των δύο αλγορίθμων. Τέλος, το δέντρο αποφάσεων δεν παρουσίασε ακριβείς εκτιμήσεις. Αυτό το αποτέλεσμα μπορεί να προέκυψε, καθώς αυτός ο αλγόριθμος είναι επιρρεπής σε υπερβολική προσαρμογή, ειδικά όταν το δέντρο γίνεται πολύ περίπλοκο ή το σύνολο δεδομένων είναι μικρό. Θα μπορούσε επίσης να οφείλεται στην αδυναμία του να αντιμετωπίσει συνεχείς μεταβλητές (π.χ. τιμές συχνότητας διαμορφωτών και χρόνος διάρκειας φωνηέντων) όπως αυτές που χρησιμοποιήθηκαν στη μελέτη.

Γιατί είναι σημαντικά τα ευρήματα: Τα ευρήματα μπορούν να προσφέρουν σημαντικές πληροφορίες για τη διατύπωση προβλέψεων στις μελέτες αντίληψης ομιλίας. Πρώτον, μπορούν να χρησιμοποιηθούν πιο εξελιγμένοι αλγόριθμοι όπως τα νευρωνικά δίκτυα για την εκτίμηση της ταξινόμησης ήχων της Γ2 και την ανάπτυξη των ερευνητικών υποθέσεων. Δεύτερον, ενώ τα γνωστικά μοντέλα και οι μηχανικές προσεγγίσεις έχουν διακριτούς στόχους και μεθοδολογίες, οι τελευταίες μπορούν επίσης να προσφέρουν πολύτιμες γνώσεις για την καλύτερη κατανόηση των διαδικασιών που διέπουν την αντίληψη του ομιλίας (π.χ. ρόλος ακουστικών σημάτων). Τρίτον, τα ευρήματα μπορούν να ενημερώσουν τη διδασκαλία. Επιλέγοντας έναν αλγόριθμό που επιδεικνύει τη βέλτιστη προγνωστική απόδοση, οι εκπαιδευτικοί θα είναι σε θέση να χαρτογραφήσουν τις δυσκολίες μαθητών με διαφορετικό Γ1 υπόβαθρο όσον αφορά την αντίληψη των ήχων στη Γ2 και επομένως να αναπτύξουν τα κατάλληλα εκπαιδευτικά εργαλεία και πλατφόρμες για τη διευκόλυνση της μάθησης. Τέταρτον, ενδέχεται να υπάρχουν οφέλη για τη βελτίωση των συστημάτων αυτόματης αναγνώρισης ομιλίας, επειδή θα είναι σε θέση να εντοπίζουν λεπτές φωνητικές διαφορές και να προσαρμόζονται καλύτερα στις παραλλαγές στους ήχους της ομιλίας ως αποτέλεσμα των μοναδικών φωνητικών χαρακτηριστικών των μη φυσικών ομιλητών.

Η δημοσίευση:

https://www.nature.com/articles/s41598-023-42818-3?fbclid=IwAR1SkNbJnOISnW91oIS2Y_Ks5ZpR8zrjtMsYZG224iVnrXkuoeQk8BlTbVU#citeas

https://www.researchgate.net/publication/374053352_Comparison_of_the_prediction_accuracy_of_machine_learning_algorithms_in_crosslinguistic_vowel_classification

*Επίκουρος Καθηγητής Γλωσσολογίας

Τμήμα Γλωσσών και Λογοτεχνίας

Πανεπιστήμιο Λευκωσίας

Διευθυντής του Φωνητικού Εργαστηρίου Πανεπιστημίου Λευκωσίας

georgiou.georg@unic.ac.cy




Comments (0)


This thread has been closed from taking new comments.





Newsletter










835