Cette page a été traduite automatiquement et l'exactitude de la traduction n'est pas garantie. Veuillez vous référer au version anglaise pour un texte source.

Projet 3 Exemple : testeur de collaboration humain-IA (HAICT) Exp. 7

25 juillet 2023 mis à jour par: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
L'étude fait partie d'un "ensemble" d'expériences qui constituent le projet 3 d'une subvention du National Eye Institute. Le troisième projet comprend une série d'expériences qui étudient comment la modification de l'entrée d'une IA simulée peut affecter les décisions prises par des observateurs humains dans une tâche à choix forcé à deux alternatives (comme la décision de rappeler une femme pour un examen plus approfondi en mammographie). HAICT 7, l'expérience décrite ici, étudie comment l'évolution de la prévalence affecte les performances humaines lorsque l'IA est utilisée comme deuxième lecteur.

Aperçu de l'étude

Description détaillée

Ce texte est le texte du pré-enregistrement pour l'expérience HAICT 7 tel que décrit sur l'Open Science Framework. https://osf.io/hngu4/

REMARQUE : Cette étude est représentative des études menées dans le cadre du projet 3 de cette subvention. Il existe plusieurs expériences dans le groupe d'expériences représenté par le projet 3, mais il n'est pas possible d'enregistrer un groupe d'études sur CT.gov.

REMARQUE : Étant donné que le commentaire du pronom est consultatif, nous le laisserons pour l'instant.

Testeur de collaboration humain-IA (HAICT) Exp. 7 (légèrement modifié depuis OSF)

  1. Collecte de données. Des données ont-elles déjà été recueillies pour cette étude ? (Oui Non)

    Oui

  2. Hypothèse. Quelle est la question principale posée ou l'hypothèse testée dans cette étude ?

Contexte : Dans une variété d'expériences de recherche, à la fois fondamentales et cliniques, les données ont été cohérentes avec une situation où la variabilité du signal (ou de la cible) est supérieure à la variabilité du bruit (distracteurs). Le signe classique de ceci est une fonction zROC avec une pente < 1 - généralement autour de 0,6. Une pente de 1,0 indique une tâche 2AFC à variance égale. Pour la tâche HAICT que nous avons testée, nous nous attendrions à une variance égale, mais nous pensons que cela vaudrait la peine de vérifier afin que nous fassions systématiquement varier la prévalence, ce qui modifiera le critère. Cela balayera une courbe ROC que nous pourrons examiner.

Nous testerons également la fausse IA de Second Reader afin de déterminer si une faible prévalence aggrave Second Reader.

  • (H1) : Nous nous attendons à reproduire la conclusion selon laquelle les critères humains deviennent plus conservateurs à mesure que la prévalence diminue.
  • (H2) : Nous prévoyons que la pente du zROC résultant sera de 1,0.
  • (H3) : Nous émettons l'hypothèse qu'une faible prévalence rendra Second Reader AI moins efficace car la valeur prédictive positive de ses commentaires sera faible.

    1. Variable dépendante. Décrivez la ou les variables dépendantes clés en précisant comment elles seront mesurées.

      Les principales variables dépendantes d'intérêt sont la précision (et les dérivés de détection de signal de la précision, d' et c), le temps de réaction et les évaluations subjectives de l'enquête suivant chaque bloc.

    2. Conditions. À combien et à quelles conditions les participants seront-ils affectés ?

Cette série d'expériences étudie comment la modification de l'entrée d'une IA simulée peut affecter les décisions prises par les observateurs humains dans une tâche à choix forcé à deux alternatives (comme la décision de rappeler une femme pour un examen plus approfondi en mammographie). Nous avons développé un paradigme appelé Human-AI Collaboration Tester (HAICT) qui permet de tester efficacement les interactions entre un humain et une IA simulée.

La tâche des observateurs dans toutes les conditions est de donner une décision 2AFC quant à savoir si un stimulus est "mauvais" ou "pas mauvais". Pour utiliser un langage imitant à peu près un diagnostic médical, chaque stimulus est appelé un « cas ». Les observateurs sont invités à prendre une décision 2AFC sur les tableaux de formes colorées. La décision est prise en fonction de la couleur prédominante de l'affaire. Le nombre d'éléments de chaque couleur est tiré de l'une des deux distributions normales, l'une pour les stimuli positifs (mauvais) et l'autre pour les stimuli négatifs (pas mauvais).

Les résultats des expériences HAICT précédentes (3 et 4) ont montré que les performances humaines dans la condition Second Reader chutent de manière significative à faible prévalence. La performance dans la condition Second Reader était meilleure que la valeur initiale lorsque la prévalence des mauvais cas était de 50 %, mais elle était nettement inférieure à la valeur initiale lorsque la prévalence n'était que de 10 %. Dans cette expérience, nous manipulons la prévalence des "mauvais" cas dans les conditions Second Reader et Baseline. Quatre taux de prévalence différents seront testés : 10 %, 33 %, 67 % et 90 %. Les observateurs rempliront 8 blocs (2 règles d'IA x 4 taux de prévalence), et l'ordre des blocs est aléatoire.

Règles d'IA à tester :

  1. Ligne de base - Aucune entrée d'IA. Observer classe chaque cas comme "mauvais" ou "pas" mauvais.
  2. Deuxième lecteur - L'observateur prend une décision initiale sur chaque cas. L'IA classe silencieusement les stimuli à l'aide d'un critère conservateur (c = 0,5). La logique du critère conservateur est que le deuxième lecteur est utilisé pour réduire les réponses faussement positives et qu'il est donc destiné à remettre en question les réponses humaines positives qui pourraient être marginales. Si l'observateur et l'IA ne sont pas d'accord, l'IA informe l'observateur humain. L'observateur a ensuite la possibilité de modifier sa réponse ou de suivre sa première opinion.

    Comme dans les expériences 1 à 5, le d-prime AI est fixé à 2,2. La rétroaction est connue pour augmenter l'effet de prévalence, de sorte que la rétroaction sera donnée à la fois dans la pratique et dans les essais de test. Les observateurs effectueront 20 essais d'entraînement et 200 essais d'essai dans chaque bloc. Immédiatement après la fin de chaque bloc, les observateurs verront un résumé de leur performance. Après les blocs Second Reader, il leur sera également demandé de répondre à trois questions subjectives sur l'utilité de l'IA (voir "Fichiers" pour plus de détails).

  3. Analyses. Précisez précisément les analyses que vous effectuerez pour examiner la question/hypothèse principale.

    Tout d'abord, nous résumons le nombre de résultats, de vrais négatifs, d'échecs et de fausses alarmes dans chaque bloc. À partir de là, nous pouvons calculer la précision, la valeur prédictive positive, la sensibilité (d-prime) et le critère pour chaque observateur dans chacune des différentes conditions. Compte tenu des mesures de performance à 4 niveaux de prévalence, nous pouvons estimer la courbe ROC (pHit x pFA) et la fonction zROC (zHit x zFA). Nous allons tester l'hypothèse que la pente du zROC est égale à 1 (conséquence d'une tâche 2AFC à variance égale).

  4. Plus d'analyses. Des analyses secondaires ?

    Nous verrons si les opinions subjectives des observateurs sur l'IA sont corrélées avec des variables telles que le d-prime empirique ou la valeur prédictive positive.

  5. Taille de l'échantillon. Combien d'observations seront recueillies ou qu'est-ce qui déterminera la taille de l'échantillon ? Inutile de justifier votre décision, mais soyez précis sur la façon exacte dont le nombre sera déterminé.

    Nous testerons 12 observateurs. Ceci est cohérent avec la taille des échantillons des expériences précédentes.

  6. Autre. Y a-t-il autre chose que vous aimeriez pré-inscrire? (ex. exclusions de données, variables collectées à des fins exploratoires, analyses inhabituelles prévues ?)

N / A

Type d'étude

Interventionnel

Inscription (Estimé)

15

Phase

  • N'est pas applicable

Contacts et emplacements

Cette section fournit les coordonnées de ceux qui mènent l'étude et des informations sur le lieu où cette étude est menée.

Coordonnées de l'étude

Lieux d'étude

    • Massachusetts
      • Boston, Massachusetts, États-Unis, 02215
        • Recrutement
        • Visual Attention Lab / Brigham and Women's Hospital
        • Contact:

Critères de participation

Les chercheurs recherchent des personnes qui correspondent à une certaine description, appelée critères d'éligibilité. Certains exemples de ces critères sont l'état de santé général d'une personne ou des traitements antérieurs.

Critère d'éligibilité

Âges éligibles pour étudier

18 ans et plus (Adulte, Adulte plus âgé)

Accepte les volontaires sains

Oui

La description

Critère d'intégration:

  • - Tous sont invités à s'inscrire en ligne

Critère d'exclusion:

  • Doit réussir le test de dépistage de la vision des couleurs Ishihara
  • Vision 20/25 (avec correction)

Plan d'étude

Cette section fournit des détails sur le plan d'étude, y compris la façon dont l'étude est conçue et ce que l'étude mesure.

Comment l'étude est-elle conçue ?

Détails de conception

  • Objectif principal: Science basique
  • Répartition: N / A
  • Modèle interventionnel: Affectation à un seul groupe
  • Masquage: Aucun (étiquette ouverte)

Armes et Interventions

Groupe de participants / Bras
Intervention / Traitement
Expérimental: Expérience
Tous les participants sont testés dans toutes les conditions de cette expérience.
Dans cette expérience, dans certaines conditions, le participant prend sa décision en présence d'informations sur une décision d'intelligence artificielle simulée.
La fréquence de présentation des cibles varie de 10% à 90%
Autres noms:
  • Taux de base

Que mesure l'étude ?

Principaux critères de jugement

Mesure des résultats
Description de la mesure
Délai
D'
Délai: Jusqu'à une semaine
D' (d-prime) est la mesure de la théorie de détection du signal du niveau de performance sur une tâche.
Jusqu'à une semaine
Critère
Délai: Jusqu'à une semaine
Le critère est la mesure de la théorie de la détection du signal du biais ("libéral" ou "conservateur") des décisions des observateurs
Jusqu'à une semaine

Mesures de résultats secondaires

Mesure des résultats
Description de la mesure
Délai
Temps de réaction
Délai: Jusqu'à une semaine
C'est la mesure du temps qu'il faut pour répondre.
Jusqu'à une semaine

Collaborateurs et enquêteurs

C'est ici que vous trouverez les personnes et les organisations impliquées dans cette étude.

Les enquêteurs

  • Chercheur principal: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Dates d'enregistrement des études

Ces dates suivent la progression des dossiers d'étude et des soumissions de résultats sommaires à ClinicalTrials.gov. Les dossiers d'étude et les résultats rapportés sont examinés par la Bibliothèque nationale de médecine (NLM) pour s'assurer qu'ils répondent à des normes de contrôle de qualité spécifiques avant d'être publiés sur le site Web public.

Dates principales de l'étude

Début de l'étude (Réel)

1 janvier 2020

Achèvement primaire (Estimé)

1 août 2024

Achèvement de l'étude (Estimé)

1 janvier 2025

Dates d'inscription aux études

Première soumission

18 février 2022

Première soumission répondant aux critères de contrôle qualité

28 février 2022

Première publication (Réel)

9 mars 2022

Mises à jour des dossiers d'étude

Dernière mise à jour publiée (Réel)

27 juillet 2023

Dernière mise à jour soumise répondant aux critères de contrôle qualité

25 juillet 2023

Dernière vérification

1 juillet 2023

Plus d'information

Termes liés à cette étude

Termes MeSH pertinents supplémentaires

Autres numéros d'identification d'étude

  • 2007P000646-B

Plan pour les données individuelles des participants (IPD)

Prévoyez-vous de partager les données individuelles des participants (DPI) ?

OUI

Description du régime IPD

Les données brutes anonymisées seront publiées sur la page OSF de l'expérience et seront également disponibles sur demande auprès du PI.

Délai de partage IPD

Les matériaux seront disponibles sur demande

Critères d'accès au partage IPD

essentiellement sans restriction

Type d'informations de prise en charge du partage d'IPD

  • PROTOCOLE D'ÉTUDE
  • SÈVE
  • CIF

Informations sur les médicaments et les dispositifs, documents d'étude

Étudie un produit pharmaceutique réglementé par la FDA américaine

Non

Étudie un produit d'appareil réglementé par la FDA américaine

Non

Ces informations ont été extraites directement du site Web clinicaltrials.gov sans aucune modification. Si vous avez des demandes de modification, de suppression ou de mise à jour des détails de votre étude, veuillez contacter register@clinicaltrials.gov. Dès qu'un changement est mis en œuvre sur clinicaltrials.gov, il sera également mis à jour automatiquement sur notre site Web .

Essais cliniques sur Simulation de l'IA du second lecteur

3
S'abonner