Mesures pour prévenir la surutilisation et l’utilisation abusive de l’apprentissage automatique dans la recherche clinique

Le terme “surutilisation” fait référence à l’adoption inutile de l’IA ou de techniques avancées de ML là où des méthodologies alternatives, fiables ou supérieures existent déjà. Dans de tels cas, l’utilisation de techniques d’IA et de ML n’est pas nécessairement inappropriée ou infondée, mais la justification de telles recherches n’est pas claire ou artificielle : par exemple, une nouvelle technique peut être proposée qui n’offre pas de nouvelles réponses significatives.

De nombreuses études cliniques ont utilisé des techniques de ML pour obtenir des performances respectables ou impressionnantes, comme le montrent les valeurs d’aire sous la courbe (AUC) comprises entre 0,80 et 0,90, voire > 0,90 (tableau 1). Une AUC élevée n’est pas nécessairement une marque de qualité, car le modèle ML peut être surajusté (Fig. 1). Lorsqu’une technique de régression traditionnelle est appliquée et comparée aux algorithmes ML, les modèles ML les plus sophistiqués n’offrent souvent que des gains de précision marginaux, présentant un équilibre discutable entre la complexité et la précision du modèle.1.2,8,9,dix,11,12. Même des AUC très élevées ne sont pas des garanties de robustesse, car une AUC de 0,99 avec un taux d’événements global <1 % est possible et conduirait à prédire correctement tous les cas négatifs, alors que les quelques événements positifs ne le sont pas.

Figure. 1 : Ajustement du modèle.
Figure 1

Étant donné un ensemble de données avec des points de données (points verts) et un effet réel (ligne noire), un modèle statistique vise à estimer l’effet réel. La ligne rouge illustre une estimation proche, tandis que la ligne bleue illustre un modèle ML surajusté avec une dépendance excessive aux valeurs aberrantes. Ce modèle peut sembler donner d’excellents résultats pour cet ensemble de données particulier, mais il ne fonctionne pas bien sur un ensemble de données différent (externe).

Il existe une distinction importante entre une amélioration statistiquement significative et une amélioration cliniquement significative des performances du modèle. Les techniques d’apprentissage automatique offrent sans aucun doute des moyens puissants pour traiter les problèmes de prédiction impliquant des données avec des relations non linéaires ou complexes de grande dimension (tableau 1). En revanche, de nombreux problèmes de prédiction médicale simples sont intrinsèquement linéaires, avec des caractéristiques choisies parce qu’elles sont connues pour être de bons prédicteurs, souvent basées sur des recherches antérieures ou des considérations mécanistes. Dans de tels cas, il est peu probable que les méthodes de BC apportent une amélioration substantielle de la discrimination.deux. Contrairement au scénario d’ingénierie, où toute amélioration des performances peut améliorer le système dans son ensemble, il est peu probable que de modestes améliorations de la précision des prédictions médicales produisent une différence dans l’action clinique.

Tableau 1 Définitions de plusieurs termes clés de l’apprentissage automatique

Les techniques de ML doivent être évaluées par rapport aux méthodologies statistiques traditionnelles avant d’être déployées. Si l’objectif d’une étude est de développer un modèle prédictif, les algorithmes ML doivent être comparés à un ensemble prédéfini de techniques de régression traditionnelles pour le score de Brier (une métrique d’évaluation similaire à l’erreur quadratique moyenne, utilisée pour vérifier la qualité d’un score de probabilité prédit ), la discrimination (ou AUC) et l’étalonnage. Le modèle doit ensuite être validé en externe. Les méthodes analytiques et les mesures de performance auxquelles elles sont comparées doivent être spécifiées dans un protocole d’étude prospective et doivent aller au-delà de la performance générale, de la discrimination et de l’étalonnage pour inclure également des mesures liées au surajustement.

En revanche, certains algorithmes sont capables de dire « je ne sais pas » face à des données inconnues.13un résultat important mais souvent négligé, car le fait de savoir qu’une prédiction est très incertaine peut, en soi, être cliniquement exploitable.

Leave a Comment

Your email address will not be published.