Jill-Jênn Vie

Researcher at Inria

% Fairness et confidentialité en IA pour l’éducation :\newline risques et opportunités % Jill-Jênn Vie % 26 janvier 2023 — institute: \includegraphics[height=1cm]{figures/inria.png} \includegraphics[height=1cm]{figures/soda.png} colorlinks: true lang: fr aspectratio: 169 biblio-style: authoryear biblatexoptions: natbib header-includes: - \usepackage{bm} - \usepackage{tikz} - \usepackage{booktabs} - \usepackage{colortbl} - \DeclareMathOperator\logit{logit} - \def\Dt{D_\theta} - \def\E{\mathbb{E}} - \def\logDt{\log \Dt(x)} - \def\logNotDt{\log(1 - \Dt(x))} - \newcommand\mycite[3]{\textcolor{blue}{#1} “#2”.~#3.} - \usepackage{etoolbox} - \AtEndPreamble{\DefineBibliographyExtras{french}{\restorecommand\mkbibnamefamily}} —

#

:::::: {.columns} ::: {.column width=33%} Découvert l’algorithmique par les compétitions de programmation (Prologin)\medskip

\small

Entraîneur de l’X au ICPC

::: ::: {.column width=34%} Fondé Girls Can Code! en 2014 (toujours via Prologin)\medskip

\small

Stages de prog° pour filles

::: ::: {.column width=33%} Milité en faveur d’une agrégation d’informatique\medskip

\small

1\textsuperscript{re} édition en 2022

\centering \vspace{5mm}

{width=50%}

\vspace{5mm}

::: ::::::

Sujets de recherche dans l’équipe Soda

Machine learning sur des données d’humains

Nos ingénieurs de recherche sont les développeurs principaux de la bibliothèque scikit-learn

#

Mesurer les connaissances des apprenants à un instant donné

Théorie de la réponse à l’item (Rasch, 1961) (Lord, 1986) et un peu (Binet, 1905)

Tests adaptatifs $\to$ premières évaluations personnalisées par ordinateur (1970-1980)

Compromis entre bien mesurer et poser peu de questions

{height=7cm}

Tracer les connaissances au cours du temps : prédire la performance

Apprentissage d’une langue (jeux de données de Duolingo)

\includegraphics{figures/duolingo0.png}

Exercices de maths

\includegraphics[width=\linewidth]{figures/dkt.png}

Recommandations de la Commission européenne (guidelines)

IA & données pour l’éducation et la formation

  1. Facteur humain et supervision
  2. Transparence
  3. \alert{Diversité, non discrimination et \emph{fairness} (impartialité)}
  4. Bien-être sociétal et environnemental
  5. \alert{Confidentialité et gouvernance des données}
  6. Robustesse technique et sécurité
  7. Responsabilité

Diversité, non discrimination et fairness (impartialité)

Fairness

“Different models with the same reported accuracy can have a very different distribution of error across population” (Hardt, 2017)

\pause

Scores de criminalité (regardez la série Psycho-Pass):

\centering

{width=90%}

Beaucoup de définitions de fairness, parfois contradictoires

\centering

{width=80%}

\raggedright

\fullcite{hardt2016equality}

Leur visualisation interactive : Attacking discrimination with smarter machine learning

Apprendre des représentations “justes”

:::::: {.columns} ::: {.column} \centering ::: ::: {.column} ::: ::::::

\fullcite{zemel2013learning}

Voir aussi

\fullcite{hutchinson201950}

Classifieurs différents selon la catégorie de population

\centering

{width=60%}

\raggedright

Voir aussi \fullcite{gardner2019evaluating}

Importance de ne pas regarder/optimiser une seule métrique

Confidentialité et gouvernance des données

Intérêt pour les données synthétiques

Les faits

La pseudonymisation, ce n’est pas suffisant

@narayanan2008robust ont réussi à dé-anonymiser le jeu de données pseudonymisé du prix Netflix de films vus et notés, avec les données publiques d’IMDb

Les données de grande dimension sont rarement $k$-anonymisables

Les grands modèles de langage se souviennent des données d’entraînement

\fullcite{carlini2021extracting}

Modèles génératifs préservant la confidentialité

Confidentialité différentielle (differential privacy)

La sortie de l’algorithme doit être quasi indistinguable de selon si une personne manque dans le jeu de données d’entraînement.

Réseaux bayésiens PrivBayes \citep{zhang2017privbayes}

{width=50%}

Générer des données individuelles à partir de données agrégées

\fullcite{acharya2022gensyn}

Intuition

Échantillonner les données sensibles selon la distribution

\centering

{width=50%}

Schéma

Utilité
On doit pouvoir déduire des analyses similaires à partir du jeu de données réel et à partir du jeu de données synthétique
Réidentification
Il faut empêcher que la réidentification soit facile / le jeu de données synthétique ne doit pas compromettre la confidentialité des participants

\centering \begin{tikzpicture}[ xscale=3.5, yscale=2, data/.style={draw}, >=stealth ] \node[data,text width=1.5cm,text centered] (original) at (0,0) {Données\ réelles}; \node[data,text width=2.5cm,text centered] (training) at (1,0) {Données\ d’entraînement}; \node[data,text width=2.5cm,text centered] (fake) at (1,-1) {Données\ synthétiques}; \node[data] (real-irt) at (2,0) {Résultats}; \node[data] (fake-irt) at (2,-1) {Résultats}; \draw[->] (original) edge node[above=5mm] {échantillonner} (training); \draw[->] (training) edge node[right] {générer} (fake); \draw[<->] (real-irt) edge node[right] {similaires} (fake-irt); \draw[->,dashed,bend right] (original) edge (training); \draw[->,dashed,bend left=60,text width=2cm,text centered] (fake) edge node[below left] {réidentifier} (training); \draw[->] (training) edge node[above] {analyse} (real-irt); \draw[->] (fake) edge node[above] {analyse} (fake-irt); \end{tikzpicture}

\raggedright \small

\fullcite{Vie2022}

Résultats quantitatifs

{width=49%} {width=49%}

$\leftarrow$ réidentification (aussi bas que possible)

$\downarrow$ différence entre résultats (aussi bas que possible)

#

Génération fidèle

\centering

{width=80%}

Génération non fidèle

\centering

{width=80%}

Conclusion

\vspace{1cm}

Merci ! Questions ? \hfill Ces slides sur \href{https://jjv.ie/slides/relia.pdf}{jjv.ie/slides/relia.pdf}