% Fairness et confidentialité en IA pour l’éducation :\newline risques et opportunités % Jill-Jênn Vie % 26 janvier 2023 — institute: \includegraphics[height=1cm]{figures/inria.png} \includegraphics[height=1cm]{figures/soda.png} colorlinks: true lang: fr aspectratio: 169 biblio-style: authoryear biblatexoptions: natbib header-includes: - \usepackage{bm} - \usepackage{tikz} - \usepackage{booktabs} - \usepackage{colortbl} - \DeclareMathOperator\logit{logit} - \def\Dt{D_\theta} - \def\E{\mathbb{E}} - \def\logDt{\log \Dt(x)} - \def\logNotDt{\log(1 - \Dt(x))} - \newcommand\mycite[3]{\textcolor{blue}{#1} “#2”.~#3.} - \usepackage{etoolbox} - \AtEndPreamble{\DefineBibliographyExtras{french}{\restorecommand\mkbibnamefamily}} —
#
:::::: {.columns} ::: {.column width=33%} Découvert l’algorithmique par les compétitions de programmation (Prologin)\medskip
\small
Entraîneur de l’X au ICPC
::: ::: {.column width=34%} Fondé Girls Can Code! en 2014 (toujours via Prologin)\medskip
\small
Stages de prog° pour filles
::: ::: {.column width=33%} Milité en faveur d’une agrégation d’informatique\medskip
\small
1\textsuperscript{re} édition en 2022
\centering \vspace{5mm}
{width=50%}
\vspace{5mm}
::: ::::::
Machine learning sur des données d’humains
Nos ingénieurs de recherche sont les développeurs principaux de la bibliothèque scikit-learn
#
Tests adaptatifs $\to$ premières évaluations personnalisées par ordinateur (1970-1980)
Compromis entre bien mesurer et poser peu de questions
{height=7cm}
\includegraphics{figures/duolingo0.png}
\includegraphics[width=\linewidth]{figures/dkt.png}
IA & données pour l’éducation et la formation
“Different models with the same reported accuracy can have a very different distribution of error across population” (Hardt, 2017)
\pause
Scores de criminalité (regardez la série Psycho-Pass):
\centering
{width=90%}
\centering
\raggedright
\fullcite{hardt2016equality}
Leur visualisation interactive : Attacking discrimination with smarter machine learning
:::::: {.columns} ::: {.column} \centering ::: ::: {.column} ::: ::::::
\fullcite{zemel2013learning}
Voir aussi
\fullcite{hutchinson201950}
\centering
{width=60%}
\raggedright
Voir aussi \fullcite{gardner2019evaluating}
Importance de ne pas regarder/optimiser une seule métrique
@narayanan2008robust ont réussi à dé-anonymiser le jeu de données pseudonymisé du prix Netflix de films vus et notés, avec les données publiques d’IMDb
\fullcite{carlini2021extracting}
La sortie de l’algorithme doit être quasi indistinguable de selon si une personne manque dans le jeu de données d’entraînement.
{width=50%}
\fullcite{acharya2022gensyn}
Échantillonner les données sensibles selon la distribution
\centering
{width=50%}
\centering \begin{tikzpicture}[ xscale=3.5, yscale=2, data/.style={draw}, >=stealth ] \node[data,text width=1.5cm,text centered] (original) at (0,0) {Données\ réelles}; \node[data,text width=2.5cm,text centered] (training) at (1,0) {Données\ d’entraînement}; \node[data,text width=2.5cm,text centered] (fake) at (1,-1) {Données\ synthétiques}; \node[data] (real-irt) at (2,0) {Résultats}; \node[data] (fake-irt) at (2,-1) {Résultats}; \draw[->] (original) edge node[above=5mm] {échantillonner} (training); \draw[->] (training) edge node[right] {générer} (fake); \draw[<->] (real-irt) edge node[right] {similaires} (fake-irt); \draw[->,dashed,bend right] (original) edge (training); \draw[->,dashed,bend left=60,text width=2cm,text centered] (fake) edge node[below left] {réidentifier} (training); \draw[->] (training) edge node[above] {analyse} (real-irt); \draw[->] (fake) edge node[above] {analyse} (fake-irt); \end{tikzpicture}
\raggedright \small
\fullcite{Vie2022}
{width=49%} {width=49%}
$\leftarrow$ réidentification (aussi bas que possible)
$\downarrow$ différence entre résultats (aussi bas que possible)
#
\centering
{width=80%}
\centering
{width=80%}
\vspace{1cm}
Merci ! Questions ? \hfill Ces slides sur \href{https://jjv.ie/slides/relia.pdf}{jjv.ie/slides/relia.pdf}