% Traçage des connaissances\newline et optimisation de l’apprentissage humain % Jill-Jênn Vie % 13 juin 2023 — handout: true aspectratio: 169 institute: \includegraphics[height=1cm]{figures/inria.png} \quad \includegraphics[height=2cm]{figures/brest.jpg} \quad \includegraphics[height=1cm]{figures/soda.png} header-includes:
Les articles que vous allez voir comportent des défauts.
\alert{Reproduisez-les} chez vous et ne les refaites pas à l’avenir.
On observe des essais d’étudiants sur des exercices (ex. maths avec ASSISTments)
\centering \begin{tabular}{cccc} \toprule Items & 5 – 5 = ? & 17 – 3 = ? & 13 – 7 = ?\ \midrule New student & \alert{$\circ$} & \alert{$\circ$} & \alert{$\mathbf{\times}$}\ \bottomrule \end{tabular}
\raggedright Apprentissage d’une langue (jeu de données de Duolingo)
\includegraphics{figures/duolingo0.png}
\includegraphics[width=\linewidth]{figures/dkt.png}
Apprendre des paramètres de questions sur des données d’historiques \hfill \emph{ex. difficulté}
Mesurer les paramètres de nouveaux apprenants \hfill \emph{ex. expertise}
\centering
\raggedright
Métrique de classification : AUC (aire sous la courbe ROC, receiver operator characteristic, courbe sensibilité/spécificité, compromis taux de vrais positifs et taux de faux positifs)
8+5 pages, 4 figures :
1 page related, 1 page modèle, 1 page appli, 1 page exp, 2 pages résultats
\pause
- Code disponible mais en Lua
- Trop sophistiqué pour pas grand-chose finalement (on l’a su plus tard)
- Pas d’expérience sur des vrais humains, juste exécution d’un code sur des données hors ligne
- En fait : une \alert{grosse erreur} dans les expériences
(remarquée grâce au fait que le code est ouvert)
\begin{table}\centering
\begin{tabular}{@{}llllcllll@{}}
\toprule
& \multicolumn{3}{c}{$Overview$} & \phantom{abc} &
\multicolumn{4}{c}{$AUC$}
\cmidrule{2-4}
\cmidrule{6-9}
Dataset & Students & Exercise Tags & Answers && Marginal & BKT & BKT* & DKT \
\midrule
Simulated-5 & 4,000 & 50 & 200 K && 0.64 & 0.54 & - & 0.82
Khan Math & 47,495 & 69 & 1,435 K && 0.63 & 0.68 & - & 0.85
% Bridge to Algebra & 3,310 & 1,829 & 8,918,000 && ? & ? & ?
Assistments & 15,931 & 124 & 526 K && 0.62 & 0.67 & 0.69 & 0.86
\bottomrule
\end{tabular}
\caption{AUC results for all datasets tested. BKT is the standard BKT. BKT* is the best reported result from the literature for Assistments. DKT is the result of using LSTM Deep Knowledge Tracing.
% Note that the best performing models in Bridge to Algebra make use of student performance {\em after} as well as before the test set, while DKT restricts itself to a causal prediction of student performance.
\label{table:results}
}
\vspace{-3mm}
\end{table}
\centering
\raggedright
#
Source: https://quantifyinghealth.com/cohort-vs-randomized-controlled-trials/
Exemple : apprendre à des jeunes à compter avec une interface ludique
21+8 pages, 9 figures :
1 page related, 7 pages modèles, 9 pages exp (4 simulés, 5 réels)
But : deux algorithmes pour sélectionner l’activité suivante de façon plus personnalisée qu’un algorithme expert
- Code open source puis \alert{supprimé} par les auteurs !!! (heureusement il en existe encore un fork, vive GitHub)
- Algo 2 repose sur une représentation du domaine coûteuse à construire
- À la fois un algo de machine learning à la fois la construction d’une représentation du domaine coûteuse pour l’expert
- Fait le choix délibéré d’ignorer la littérature existante (et réinvente plusieurs trucs sans les nommer)
- Balaie d’un revers de main des années de recherche sur les bandits pour prendre le modèle le plus simple de bandit possible “we rely on SOTA multi-arm bandit techniques” $\to$ tut tut tut
- Notations difficiles à suivre, beaucoup d’acronymes
- Pre-tests et post-tests sont faits avec le même outil
De l’intérêt d’une personnalisation contrôlée
\alert{Compromis entre exploitation} (machines qui marchent)
et \alert{exploration} (peut-être d’autres machines peu testées)
\tiny
Source : \url{https://eugeneyan.com/writing/bandits/}
\alert{Maximiser l’information à chaque question} $\rightarrow$ les apprenant·es échouent 50 % du temps
(bien pour l’évaluateur, pas pour les apprenant·es) \bigskip
\pause
\alert{Maximiser le taux de succès} $\rightarrow$ on pose artificiellement des questions trop simples \bigskip
\pause
\alert{Identifier une lacune de l’apprenant·e le plus vite possible} (Teng et al., ICDM 2018) ou Rotting bandits are not harder than stochastic ones (Seznec et al., AISTATS 2019) \bigskip
\pause
\alert{Maximiser l’accroissement du taux de succès} Multi-Armed Bandits for Intelligent Tutoring Systems (Clement et al., JEDM 2015)
:::::: {.columns} ::: {.column width=50%}
::: ::: {.column width=50%}
::: :::
Données simulées OK, parfois avec données réelles
Données réelles, de plus en plus demande d’études même petites sur des vrais apprenants
Il n’existe pas de papier exemplaire
\begin{thebibliography}{1} \setbeamertemplate{bibliography item}[article] \bibitem{C} Chris Piech et al. “Deep knowledge tracing”. In: Advances in Neural Information Processing Systems (NIPS). 2015, pp. 505–513. \end{thebibliography}
Bien écrit et comporte des erreurs dans les expériences mais a quand même profondément inspiré le domaine
\begin{thebibliography}{1} \setbeamertemplate{bibliography item}[book] \bibitem{B} Benjamin Clément et al. “Multi-Armed Bandits for Intelligent Tutoring Systems”. In: Journal of Educational Data Mining 7.2 (2015), pp. 20–48. \end{thebibliography}
Difficile à lire mais a le mérite d’avoir été testé / prouvé sur des vrais étudiants
On parle souvent de compromis entre interprétabilité et performance, je pense qu’il vaut surtout parler de compromis \alert{adaptabilité et contrôle}
Merci pour votre attention !