Αξιολόγηση μαθητών Α' τετραμήνου και αξιοπιστία


ΤΟΥ ΔΡΟΣ ΠΑΝΑΓΙΩΤΗ ΠΑΝΑΓΙΔΗ*

Προτού εκφράσω της απόψεις μου για το θέμα θα ήθελα να διευκρινίσω ότι προσωπικά δεν αντιτίθεμαι στις εξετάσεις τετραμήνων νοουμένου ότι θα λυθούν τα διάφορα πρακτικά προβλήματα που προκύπτουν.

Με αυτό το άρθρο θα ήθελα να εστιάσω την προσοχή των αναγνωστών στα τρία βασικότερα (κατά τη γνώμη μου) προβλήματα του νέου συστήματος αξιολόγησης τα οποία αναπτύσσω πιο κάτω.

1. Η βαρύτητα (τα ποσοστά) που δίνονται για τις διάφορες μετρήσεις που δίνουν τη σύνθετη (τελική)  βαθμολογία των μαθητών.  

Με το να προσθέτουμε απλά τις συνιστώσες βαθμολογίες από τις διάφορες μετρήσεις-αξιολογήσεις ή να θέτουμε τυχαία και χωρίς μελέτη διαφορετική βαρύτητα σε αυτές, αποτυγχάνουμε στο να αναγνωρίσουμε τη σχετική σημαντικότητα της κάθε μιας στη σύνθετη βαθμολογία (Rudner, 2001).

Στο νέο σύστημα αξιολόγησής μας έχουμε βασικά τρεις διαφορετικές μετρήσεις: την προφορική (60%), την γραπτή εξέταση (30%) και το δοκίμιο τετραμήνου (10%).  

Ειδικοί στις εκπαιδευτικές μετρήσεις (όπως οι Govindarajulu, 1988; Rudner, 2001; και Bobko, Roth and Buster, 2007) περιγράφουν τρεις διαφορετικούς τρόπους για να θέτουμε τη βαρύτητα των συνιστωσών μετρήσεων για υπολογισμό της σύνθετης βαθμολογίας:

            α. Ανάθεση βαρύτητας ανάλογα με τη δυσκολία της κάθε συνιστώσας μέτρησης.

Δηλαδή, αν για παράδειγμα θέλω να χρησιμοποιήσω μετρήσεις από δύο δοκίμια για να βγάλω τη σύνθετη βαθμολογία,  τα αποτελέσματα στο πιο δύσκολο δοκίμιο πρέπει να έχουν μεγαλύτερη βαρύτητα. Αυτή η μέθοδος ευνοεί τους ικανότερους μαθητές οι οποίοι αντιλαμβάνονται πιο εύκολα τις δυσκολότερες έννοιες (ΠΛΕΟΝΕΚΤΗΜΑ) αλλά ταυτόχρονα τιμωρεί τους υπόλοιπους που μπορεί να μην απάντησαν στις πιο δύσκολες ερωτήσεις (ΜΕΙΟΝΕΚΤΗΜΑ).

Στην περίπτωσή μας με βάση τους μέσους όρους, τα δύο δοκίμια έχουν σημαντικά μεγαλύτερη δυσκολία από την προφορική αξιολόγηση άρα θα έπρεπε να έχουν και μεγαλύτερη βαρύτητα.

            β. Ανάθεση βαρύτητας ανάλογα με την αξιοπιστία της κάθε συνιστώσας μέτρησης.

Tα αποτελέσματα στη μέτρηση με το μεγαλύτερο βαθμό αξιοπιστίας (άρα και μικρότερο σφάλμα μέτρησης) έχουν μεγαλύτερη βαρύτητα. Συνήθως χρησιμοποιούμε ως συντελεστές βαρύτητας τους συντελεστές αξιοπιστίας της κάθε μέτρησης.

Για παράδειγμα αν έχω δύο δοκίμια και ο συντελεστής αξιοπιστίας του πρώτου δοκιμίου είναι 0,85 και του δεύτερου 0,70 το πρώτο έχει ψηλότερο βαθμό αξιοπιστίας. Άρα τη σύνθετη βαθμολογία (Χ) για τον κάθε μαθητή, από τους βαθμούς Χ1 και Χ2 στα δύο δοκίμια, μπορούμε να την υπολογίσουμε με τον πιο τύπο:   Χ =    

Με αυτόν τον τρόπο επιτυγχάνεται μικρότερο σφάλμα μέτρησης από το να προσθέταμε απλά τις δύο συνιστώσες βαθμολογίες.

Στην περίπτωση μας και πάλι τα δύο δοκίμια έχουν ψηλότερο βαθμό αξιοπιστίας από την προφορική αξιολόγηση (για αρκετούς λόγους όπως περισσότερα ερωτήματα και μεγαλύτερο εύρος βαθμολογιών) άρα θα έπρεπε να έχουν και μεγαλύτερη βαρύτητα. Ερευνητές όπως οι Carlson (1968) και Lane  και Stone (2016) έχουν δείξει ότι η αξιοπιστία μιας σύνθετης βαθμολογίας μειώνεται όταν δίνεται περισσότερη βαρύτητα στις λιγότερο αξιόπιστες συνιστώσες βαθμολογίες.

            γ. Ανάθεση συντελεστών βαρύτητας με τους οποίους θα μεγιστοποιείται ο βαθμός εγκυρότητας σχετιζόμενης με κριτήριο.

Επιλέγουμε τους συντελεστές βαρύτητας κάθε μέτρησης οι οποίοι θα μας δώσουν τον μεγαλύτερο συντελεστή συσχέτισης μεταξύ των σύνθετων βαθμολογιών και των αποτελεσμάτων σε μία άλλη μέτρηση (π.χ. ένα άλλο δοκίμιο) η οποία έχει αποδεδειγμένα ψηλό βαθμό εγκυρότητας. Με αυτό τον τρόπο βελτιώνεται και ο βαθμός εγκυρότητας της μέτρησής μας.

Στην περίπτωσή μας καταφανώς δεν γίνεται κάτι τέτοιο.

Συμπερασματικά, κανένας δε μας έχει εξηγήσει πως κατέληξαν οι "ειδικοί" στα ποσοστά βαρύτητας για την κάθε μέτρηση και θεωρώ ότι μάλλον βεβιασμένα και τυχαία τα έχουν θέσει και αυτή η προχειρότητα  δεν είναι μόνο απογοητευτική αλλά και επικίνδυνη για την εκπαίδευσή μας. 

2. Ένα μόνο δοκίμιο για το τετράμηνο

Δυσκολεύομαι πολύ να καταλάβω τους λόγους (που ελπίζω να αφορούν στην πιο ακριβή μέτρηση και αξιολόγηση της ικανότητας των μαθητών) για τους οποίους πάρθηκε αυτή η απόφαση. Ξέρουμε ότι γενικά, όσο περισσότερες, ακριβείς και με ψηλό βαθμό αξιοπιστίας, μετρήσεις έχουμε, τόσο πιο έγκυρη θα είναι η τελική μας αξιολόγηση της ικανότητας των μαθητών μας. Και από πρακτικής πλευράς, είναι δυνατό να θεωρεί κάποιος ότι ο μαθηματικός (για παράδειγμα) που διδάσκει 7 περιόδους την εβδομάδα και ο οικονομολόγος που διδάσκει 4 περιόδους την εβδομάδα πρέπει να χορηγήσουν ένα μόνο δοκίμιο στους μαθητές τους; Δε θα έπρεπε ο αριθμός δοκιμίων να είναι ανάλογος του όγκου της ύλης που διδάσκονται οι μαθητές;

Όσον αφορά τους τελειόφοιτους, που διδάσκονται τόσες πολλές περιόδους στις κατευθύνσεις τους, και το μέλλον τους εξαρτάται από τις προεισαγωγικές εξετάσεις, θα έχουν εξασκηθεί σε συνθήκες εξετάσεων με δύο μόνο δοκίμια κατά τη διάρκεια του ακαδημαϊκού έτους;

Κάποιος μπορεί να ισχυριστεί ότι υπάρχει και η εικοσάλεπτη άσκηση. Αυτό είναι αβάσιμο, δεν εξυπηρετεί και φαίνεται ότι έχει αποφασισθεί από άτομα που δεν έχουν άμεση σχέση με τις εκπαιδευτικές μετρήσεις - αξιολογήσεις. Οι Mehrens και Lehmann (1991), ανάμεσα σε πάρα πολλούς ειδικούς στις εκπαιδευτικές μετρήσεις, αναφέρουν ότι γενικά, μεγαλύτερα δοκίμια με περισσότερες ερωτήσεις δίνουν πιο αξιόπιστα αποτελέσματα. Αυτό ισχύει διότι ο βαθμός που παίρνει σε αυτά ένας/μια μαθητής/τρια πλησιάζει περισσότερο τον πραγματικό του/της βαθμό (το βαθμό που θα έπρεπε να είχε πάρει με βάση την ικανότητά του/της).  "Πολύ σύντομα δοκίμια απλά δίνουν λιγότερο αξιόπιστα αποτελέσματα" (Mehrens & Lehmann, 1991, p. 258). Επίσης, ένα εικοσάλεπτο διαγώνισμα μπορεί να περιλαμβάνει μόνο μια άσκηση, άρα και πολύ μειωμένο βαθμό αξιοπιστίας. Ακόμα όμως και στην περίπτωση που περιέχει αρκετές ερωτήσεις (ας πούμε τις μισές ενός 45λεπτου διαγωνίσματος) τότε και πάλι ο βαθμός αξιοπιστίας μειώνεται σημαντικά. Για παράδειγμα αν ο συντελεστής αξιοπιστίας ενός 45λεπτου δοκιμίου είναι 0,82 (ικανοποιητικός), του εικοσάλεπτου θα είναι γύρω στο 0,65 που είναι πάρα πολύ χαμηλός.

3. Όλοι οι εκπαιδευτικοί ακολουθούν τον ίδιο ακριβώς τρόπο αξιολόγησης.

Σε μια εποχή που μας ενδιαφέρει να αναπτύξουμε την κριτική σκέψη, την ελευθερία έκφρασης και τη δημιουργικότητα των μαθητών μας είναι το λιγότερο σχήμα οξύμωρο να περιορίζουμε με τέτοιο τρόπο τους εκπαιδευτικούς που θα βοηθήσουν τους νέους μας να αναπτύξουν τα πιο πάνω. Γίνεται δηλαδή μια ρομποτικοποίηση ή αλγοριθμοποίηση του τρόπου αξιολόγησης που όχι μόνο δε βοηθά, αλλά και μειώνει αισθητά την αξιοπιστία της όλης διαδικασίας. 

Τελειώνοντας θα ήθελα να αναφέρω ότι πρέπει οπωσδήποτε να αναθεωρηθεί ο τρόπος αξιολόγησης του μαθητή. Όπως έχει διαμορφωθεί, δεν μπορώ να μην αισθάνομαι ότι έχει γίνει πρόχειρα, από μη ειδικούς στο θέμα και με σκοπό να ικανοποιήσει ίσως κάποιες κοινωνικές ομάδες που μπορεί να νιώθουν ότι οι μαθητές μας δεν πρέπει να "κουράζονται". Επίσης θεωρώ ότι το όλο σύστημα έχει σχεδιαστεί για μικρά παιδιά της δημοτικής εκπαίδευσης και όχι για μαθητές λυκείων και αυριανών φοιτητών.

Επιφυλάσσομαι να επανέλθω με συγκεκριμένα στοιχεία. Την εκτίμηση του συντελεστή αξιοπιστίας της τελικής βαθμολογίας του Α' τετραμήνου των μαθητών σε ένα-δυό μαθήματα. Η διαδικασία είναι όμως λίγο χρονοβόρα. Αν κάποιος/α συνάδελφος ενδιαφέρεται να βοηθήσει με δεδομένα από το σχολείο του/της για πιο ακριβή εκτίμηση της αξιοπιστίας ας επικοινωνήσει μαζί μου.

Σχετική βιβλιογραφία

      Bobko, P., Roth, P. and Buster, M. (2007). The usefulness of unit weights in creating composite scores: a literature review, application to content validity, and meta-analysis. Organizational Research Methods, 10, pp. 689-709.

      Carlson, J. E. (1968). Effects of differential weighting on the reliability of essay grades (Unpublished doctoral dissertation). University of Alberta, Edmonton, Canada. (Google Scholar)

     Govindarajulu, Z. (1988). Alternative methods for combining several test scores. Educational and Psychological Measurement, 48, pp. 53-60.

     Lane, S., & Stone, C. A. (2006). Performance assessment. In R. L. Brennan (Ed.), Educational measurement ( 4th ed., pp. 387– 431). Westport, CT: American Council on Education & Praeger. (Google Scholar)

     Mehrens, W. A. & Lehmann, I. J. (1991). Measurement and Evaluation in Education and Psychology, (4th ed.) New York: Holt, Rinehart and Winston.

    Rudner, L. (2001). Informed test component weighting. Educational Measurement: Issues and Practice, 20, pp. 16-19.

*MSc Educational Testing, PhD Educational Measurement

Μαθηματικός, ΒΔΑ' Λύκειο Αγίου Σπυρίδωνα, Λεμεσός.

 




Comments (5)

  1. ΓΙΑΝΝΑΚΗΣ ΚΑΠΠΕΛΛΟΣ:
    Jan 08, 2020 at 11:41 PM

    Αγαπητέ συνάδελφε, θα συμφωνήσω με τη φράση σου ότι, «τα δύο δοκίμια έχουν σημαντικά μεγαλύτερη δυσκολία από την προφορική αξιολόγηση άρα θα έπρεπε να έχουν και μεγαλύτερη βαρύτητα.»
    Θα δώσω ένα σημερινό παράδειγμα μετά από διάλογο με μια συνάδελφο που είχε ανησυχία πως θα μαγειρέψει το προφορικό βαθμό ενός μαθητή για να πάρει τη βάση γιατί στις δύο γραπτές εξετάσεις είχε γράψει 03.
    Τις εξηγώ: 03 χ 0,3 = 0,9 και 03 χ 0,1 = 0,3 μας κάνουν 1,2. Για να πάρει τη βάση πρέπει να αφαιρέσουμε το 1,2 από το 10 που μας κάνει 8,8. Το 8,8 διαιρώντας με το 0,6 (ποσοστό 60%) μας κάνει 14,67. Με προφορικό βαθμό 14 ο μαθητής παίρνει τη βάση.
    Εάν όμως τα ποσοστά ήταν 40% για την τελική εξέταση, 20% για το δοκίμιο τετραμήνου και 40% για το προφορικό, τότε ο πιο πάνω μαθητής θα ήθελε προφορικό βαθμό για να πάρει τη βάση το 20!!! ( 03 χ 0,4 = 1,2 και 03 χ 0,2 = 0,6 μας κάνουν 1,8. Άρα (10 - 1,8) / 0,4 = 20,5 )
    Με τα πιο πάνω δεδομένα θα συμφωνήσω και πάλι με τη φράση σου ότι, «Όπως έχει διαμορφωθεί, δεν μπορώ να μην αισθάνομαι ότι έχει γίνει πρόχειρα, από μη ειδικούς στο θέμα και με σκοπό να ικανοποιήσει ίσως κάποιες κοινωνικές ομάδες που μπορεί να νιώθουν ότι οι μαθητές μας δεν πρέπει να "κουράζονται".» και συμπληρώνω ότι στοχευμένα έχουν παρθεί αυτές οι αποφάσεις για να περνούν πιο εύκολα οι μαθητές τις τάξεις.

  2. Ερήνη Λουκαίδου:
    Jan 09, 2020 at 06:26 PM

    Αγαπητέ συνάδελφε κε Παναγίδη, συμφωνώ με όσα αναφέρεις αν και προσωπικά δεν με ενδιαφέρουν τα νούμερα. Θα σταθώ όμως στο σημείο 3 που θεωρώ ως πιο σημαντικό.
    Στην ιστοσελίδα του Υ.Π.Π.Α.Ν δεσπόζει το σύνθημα ότι "Η αξιλόγηση αποτελεί αναπόσπαστο μέρος της διαδικασίας μάθησης." Πως γίνεται αυτό δεσμεύοντας τους εκπαιδευτικούς σε ένα πλήρως καθορισμένο ποιοτικά και ποσοτικά τρόπο αξιολόγησης ο οποίος ισοπεδοτικά αγνοεί
    τις ιδιαιτερότητες των μαθητών που έχει μπροστά του ο κάθε εκπαιδευτικός?

  3. Τάσος Τάσου:
    Jan 10, 2020 at 10:28 AM

    Προς Γιαννάκη Κάππελο: Συνάδελφε τι σχέση έχει το 60 % 'η το 40 % στον προφορικό όταν οι καθηγητές μαγειρεύουν βαθμούς; Δε κτίζεται ένα σύστημα αξιολόγησής για να διασφαλίζει νοοτροπίες εκπαιδευτικών αλλά στη βάση της σύγχρονης παιδαγωγικής θεωρίας και στη βάση των δεδομένων που χαρακτηρίζουν τους αξιολογούμενους και όχι τους αξιολογητές

  4. Παναγιώτης Παναγίδης:
    Jan 10, 2020 at 12:47 PM

    Ευχαριστώ για τα σχόλιά σας συνάδελφοι, καλοδεχούμενα. Σκοπός του άρθρου μου φυσικά είναι να τονίσω το λανθασμένο τρόπο με τον οποίο μπήκαν τα διάφορα ποσοστά βαρύτητας στις διάφορες μετρήσεις-αξιολογήσεις της ικανόντητας των μαθητών μας αλλά και το πόσο αυτά επηρεάζουν την αξιοπιστία της συνολικής αξιολόγησης. Θα επανέλθω σε 2-3 εβδομάδες (ελπίζω) με συγκεκριμένα δεδομένα για την αξιοπιστία.

  5. ΓΙΑΝΝΑΚΗΣ ΚΑΠΠΕΛΛΟΣ:
    Jan 12, 2020 at 09:11 PM

    Κύριε Τάσου, στη νήσο Κύπρο βρισκόμαστε και γνωρίζουμε τι μαγειρέματα γίνονται με εντολές από τα ανώτερα στρώματα. Και ξανά εξηγώ, εάν το ποσοστό του προφορικού ήταν στο 40% θα ήταν αδύνατος ο παράγοντας του μαγειρέματος των βαθμών για τους αδύνατους μαθητές που αποτυγχάνουν στη γραπτή αξιολόγηση, ενώ με την παρούσα ποσόστωση, μαθητής με μονάδα στη γραπτή αξιολόγηση μπορεί ο εκπαιδευτικός για τους χ παρεμβατικούς ή συναισθηματικούς λόγους να περάσει το μαθητή με συνολικό βαθμό δέκα (10) με το να του βάλει προφορικό 16!!! Τόσο απλά.
    Δύο τρόποι υπάρχουν για να αποφύγουμε αυτό το ολίσθημα, είτε αλλάζουμε τη ποσόστωση όπως την αναφέρω στο προηγούμενό μου σχόλιο είτε για να έχει δικαίωμα ένας μαθητής να πάρει τη βάση ο ελάχιστος βαθμός που πρέπει να πάρει στη γραπτή αξιολόγηση να είναι το τέσσερα (4).


This thread has been closed from taking new comments.





Newsletter










3801