Etude de la correction entre pairs sur OpenClassrooms

Matthieu SchallerPréambule : ce billet a été rédigé par Matthieu Schaller, doctorant en astrophysique, qui a co-écrit avec moi le cours de C++. Il a aussi conçu une partie des activités en correction par les pairs qui accompagnent depuis peu le cours. Nous avons beaucoup échangé ensemble ces dernières semaines sur ce mécanisme de correction entre élèves, ce qui l’a amené à étudier leur comportement. C’est ce qu’il vous partage dans ce billet. :o)

Sur OpenClassrooms, les activités liées aux cours sont corrigées non pas par un ordinateur mais par des humains qui font le cours en même temps que vous. On appelle ça la correction par les pairs (peer to peer assessment).

Contrairement à d’autres fournisseurs de cours online ou à ce qui se fait dans les auditoires universitaires, la correction, ici, n’est pas réalisée par le “professeur” ou rédacteur du cours, mais par d’autres étudiants. Ce système permet à un plus grand nombre d’étudiants de suivre le cours sans que le professeur ne soit submergé par un travail de correction bien trop conséquent. Par ailleurs, vous pouvez être corrigé à tout moment grâce à un algorithme de correction continue. Pas besoin de suivre le cours à une période spécifique de l’année.

Par contre, la question de la qualité de la correction se pose. Des étudiants apprenant le PHP, par exemple, sont-ils capables d’évaluer d’autres étudiants suivant le même cours de manière appropriée ? Peut-on faire confiance aux étudiants ? Ne vont-ils pas assigner un 10/10 aux autres étudiants par solidarité ? Ou au contraire ne vont-ils pas sous-estimer les autres étudiants ? Au moment d’écrire ces lignes, plusieurs milliers de corrections ont été effectuées. Il est donc possible d’analyser les tendances générales et de tirer un premier bilan. Dans ce billet, nous allons nous concentrer sur le cours de PHP, plus précisément sur l’examen de la partie III qui consiste à réaliser un mini-chat. Les éléments présentés ici correspondent aux premiers 1500 étudiants ayant réalisé cet examen, ce qui nous permet d’analyser environ 4500 corrections (chaque devoir étant corrigé par 3 étudiants différents).

Quelles notes reçoivent les élèves ?

La première question que l’on se pose en tant que professeur marquant un cours est souvent la moyenne des élèves et plus généralement la distribution des notes obtenues. C’est ce qui est représenté sur la figure suivante.

Distribution des notes des 1500 élèves à l'exercice
Distribution des 4500 notes données par 1500 élèves à l’exercice

L’examen est noté sur 10. L’histogramme bleu montre les 3 notes obtenues par chaque étudiant (donc 4500 notes au total). Comme on peut le voir,  une grande partie des étudiants ont obtenu de bonnes notes puisque la moyenne est de 7,35. On peut se dire que l’examen est peut-être même un peu trop facile puisque l’on ne retrouve pas la distribution habituelle centrée autour de la moyenne avec peu de gens obtenant tous les points. Il est aussi possible que les consignes de correction jouent un rôle et poussent les correcteurs à bien noter. Il sera intéressant de voir si le même phénomène se reproduit pour d’autres examens créés par d’autres auteurs, ou si cela dépend fortement de l’exercice. (note de Mathieu : la tendance sur les autres exercices semble actuellement être la même)

L’autre élément à observer est l’absence de pic aux alentours de 0. Il semblerait donc que la vaste majorité des étudiants a réussi à réaliser quelque chose et à l’envoyer au correcteur sans encombres. De même, les correcteurs ont pu évaluer ces copies sans problèmes. Il ne semblerait donc pas y avoir de correcteurs “vaches” qui mettent 0/10 à tout le monde. Cela est confirmé par la courbe rouge sur le même graphique. Cette ligne représente l’histogramme des moyennes obtenues par les étudiants (1500 moyennes). Elle a globalement la même forme que l’histogramme bleu, ce qui tend à montrer que, en général, la moyenne que chaque étudiant a obtenue est composée de 3 notes similaires.

Pour guider les yeux, les 3 lignes verticales indiquent où se situent 10%, 25% et 50% du total des moyennes. 10% des gens ont donc obtenu moins de 4,6 à cet examen alors que 50% ont obtenu 7,6 ou plus. La courbe rouge est qualitativement plate entre 7/10 et 10/10, ce qui tend à indiquer que les 10/10 obtenus en note individuelle sont potentiellement dus à des correcteurs un poil plus généreux que les autres.

Quelles notes donnent les élèves à leurs collègues ?

Pour tester un peu mieux le comportement des correcteurs, on peut s’intéresser aux 3 notes qu’ils ont données et étudier la moyenne de ces notes. Un correcteur malchanceux peut recevoir trois mauvaise copies, mais ce devrait être rare et la distribution des moyennes données devrait ressembler à celle des moyennes reçues à moins d’avoir affaire à de méchants correcteurs (comme on en a tous eu à l’école :) ). La figure suivante montre cette distribution.

Moyenne donnée par chaque élève-correcteur
Moyenne donnée par chaque élève-correcteur

Contrairement à ce qu’on aurait pu craindre, il n’y a pas de correcteurs qui mettent systématiquement des mauvaises notes (ou d’excellentes notes) à leurs étudiants. Il y a un léger pic à 10/10, mais ce n’est pas très significatif.

Les correcteurs sont-ils d’accord entre eux ?

Pour vérifier la validité et l’objectivité du système de correction, on peut aussi s’intéresser à chaque étudiant et voir si les différents correcteurs s’accordent sur la note qu’ils donnent à cette même copie. On peut quantifier le désaccord entre correcteurs en mesurant l’écart-type entre les trois notes données. Plus l’écart-type est grand, plus les correcteurs divergent sur la note à donner. Par exemple, un écart-type de 1 correspond au cas où deux correcteurs ont mis la même note et le troisième a mis deux points de plus ou deux points de moins (4,4,6 ou 5,5,3).

Le graphe suivant montre la distribution des écarts-types. Les lignes grises dans le fond montrent les écarts-types pour quelques cas de figure concrets.

 

Qualité de la correction mesurée grâce à l'écart-type des notes
Qualité de la correction mesurée grâce à l’écart-type des notes

Très bonne surprise ! Sur 50% des copies les correcteurs s’accordent à un point près (et sans s’être consultés entre eux !). Il y a très peu de copies pour lesquelles les correcteurs sont en désaccord sérieux.

Cela montre donc que les étudiants ont, en général, la capacité de noter correctement les copies de leurs collègues. L’intervention du professeur externe ayant une connaissance approfondie du sujet ne semble donc pas nécessaire à l’évaluation des élèves.

Les bons élèves donnent-ils de bonnes notes ?

Si les correcteurs semblent généralement s’accorder sur la note à attribuer à une copie, cela ne veut pas dire que toutes les catégories de correcteurs corrigent de la même manière. On voudrait savoir si les “mauvais” élèves corrigent de la même manière que les “bons” ou si leur méconnaissance du sujet tend à les rendre plus généreux ou plus sévères.

Pour tester cela, nous avons créé deux catégories de correcteurs. La première contient les correcteurs ayant obtenu un 9 ou un 10/10 sur cet examen. La deuxième comprend les correcteurs ayant obtenu 5/10 ou moins. Nous avons donc les “bons” élèves et les “mauvais” élèves. Chacun de ces élèves a corrigé 3 examens différents, ce qui nous permet d’évaluer comment chaque élève note en moyenne. Sur la figure suivante, les deux histogrammes correspondent aux moyennes données en correction par les deux groupes d’élèves-correcteurs. En rouge, les “mauvais” élèves et en bleu, les “bons” élèves.

Qui donne des bonnes notes ?
Qui donne des bonnes notes ?

Les mauvais élèves semblent noter en moyenne un peu moins bien que les bons élèves. La différence n’est pas très grande et pas vraiment statistiquement représentative. C’est cependant un point à prendre en compte et probablement important à surveiller dans d’autres épreuves. Il serait dommage que le système de correction ait un biais dû à l’interaction entre élèves de niveaux différents. Sachez néanmoins, qu’il existe des moyens pour corriger ce type de problèmes s’il devait s’avérer significatif dans le futur. Certains d’entre eux sont décrits dans ce papier en anglais sur la correction entre pairs :

  • Calibrated Peer Reviews
  • Bayesian Post Hoc Stabilization
  • Credibility Index
  • etc.

On peut par exemple donner un coefficient plus ou moins fort à la note de l’élève après avoir calibré au préalable sa précision. Pour le calibrage, on lui fait noter des devoirs déjà notés par le professeur (dont on connaît la « vraie » note par avance). La notation du professeur est alors prise comme référence.

À vous de jouer !

Après ces premières analyses sur la correction entre pairs, si vous voulez à votre tour faire des recherches et jouer les statisticiens, vous pouvez télécharger un fichier comportant les corrections anonymisées entre les élèves sur plusieurs exercices différents.

OpenClassrooms diffuse ce fichier à tous en Open Data, profitez-en !

Télécharger les corrections entre pairs (CSV, 7250 lignes)

À vous de jouer ! :o)

12 Comment
  1. Bonjour, j’apprecie vraiment ce genre d’attention que vous porter sur nous qui sommes vos eleves.
    Pour moi ce billet avais sa raison d’etre, encore merci a Mr Mathieu et Mr Schaller

  2. Bonjour,

    J’ai eu un exercice où le professeur avait donné un exemple du résultat attendu pour l’exercice (qui apparaissait une fois le notre rendu bien sûr). Pour certains exercices ça peut permettre de mieux juger je pense, surtout si on a nous même raté ou mal compris l’exercice… ça peut aussi permettre de mieux comprendre la note qu’on reçoit.

    Sinon, sur le principe, je trouve ce type de notation agréable. Je me sens plus investie dans l’exercice.
    Cordialement,
    Angéla

  3. Bonjour,
    Ce billet contient beaucoup de réponses aux questions que je me posais sur la « correction par les pairs ». Merci à vous et continuez comme ça à partager vos analyses et impressions, c’est vraiment enrichissant et passionnant :-)
    Cordialement,
    Philippe

  4. Je penses qu’il serait intéressant pour les élèves de procéder à un traitement des notes pour les recentrées sur une moyenne de 5.
    En effet avec une moyenne centrée autour de 7, les élèves vont se sentir plus « valorisés » dans leurs niveaux!

  5. En retour d’expérience, je dirai que le cours « php » de Mathieu Nebra a été le premier et a donc essuyé les plâtres. Aujourd’hui, après plusieurs certifications sur OC, j’ai moins le stress du « paquet de copies » et, comme je comprends de mieux en mieux ce que je corrige, je suis plus sensible au travail produit et plus indulgent quand au résultat final. Je constate la même démarche chez mes différents correcteurs sur d’autres cours, plus dans les commentaires, d’ailleurs, que dans la notation qui fluctue, en général, entre 7 et 9. Je confirme qu’il n’y a pas de vrais méchants, pour l’instant, parmi mes pairs sur OC, ce qui ne veut pas dire, pour autant, que nous soyons chez les Bisounours…

  6. 1/ Ce n’est pas « peer to peer assessment », mais « peer assessment ».
    2/ Vous ne mentionnez même pas l’effet Dunning–Kruger , qui est tout à fait lié au sujet ici.

    1. Merci pour ces précisions. Peux-tu détailler ce que tu connais de l’effet Dunning-Kruger, et si tu l’as expérimenté ?
      Toute contribution est appréciée pour enrichir nos connaissances à tous sur ce sujet !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Related articles