Cette page a été traduite automatiquement et l'exactitude de la traduction n'est pas garantie. Veuillez vous référer au version anglaise pour un texte source.

Projet 3 Exemple : testeur de collaboration humain-IA (HAICT) Exp. 7

25 juillet 2023 mis à jour par: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

L'étude fait partie d'un "ensemble" d'expériences qui constituent le projet 3 d'une subvention du National Eye Institute. Le troisième projet comprend une série d'expériences qui étudient comment la modification de l'entrée d'une IA simulée peut affecter les décisions prises par des observateurs humains dans une tâche à choix forcé à deux alternatives (comme la décision de rappeler une femme pour un examen plus approfondi en mammographie). HAICT 7, l'expérience décrite ici, étudie comment l'évolution de la prévalence affecte les performances humaines lorsque l'IA est utilisée comme deuxième lecteur.

Aperçu de l'étude

Statut

Recrutement

Les conditions

Intervention / Traitement

Description détaillée

Ce texte est le texte du pré-enregistrement pour l'expérience HAICT 7 tel que décrit sur l'Open Science Framework. https://osf.io/hngu4/

REMARQUE : Cette étude est représentative des études menées dans le cadre du projet 3 de cette subvention. Il existe plusieurs expériences dans le groupe d'expériences représenté par le projet 3, mais il n'est pas possible d'enregistrer un groupe d'études sur CT.gov.

REMARQUE : Étant donné que le commentaire du pronom est consultatif, nous le laisserons pour l'instant.

Testeur de collaboration humain-IA (HAICT) Exp. 7 (légèrement modifié depuis OSF)

Collecte de données. Des données ont-elles déjà été recueillies pour cette étude ? (Oui Non)
Oui
Hypothèse. Quelle est la question principale posée ou l'hypothèse testée dans cette étude ?

Contexte : Dans une variété d'expériences de recherche, à la fois fondamentales et cliniques, les données ont été cohérentes avec une situation où la variabilité du signal (ou de la cible) est supérieure à la variabilité du bruit (distracteurs). Le signe classique de ceci est une fonction zROC avec une pente < 1 - généralement autour de 0,6. Une pente de 1,0 indique une tâche 2AFC à variance égale. Pour la tâche HAICT que nous avons testée, nous nous attendrions à une variance égale, mais nous pensons que cela vaudrait la peine de vérifier afin que nous fassions systématiquement varier la prévalence, ce qui modifiera le critère. Cela balayera une courbe ROC que nous pourrons examiner.

Nous testerons également la fausse IA de Second Reader afin de déterminer si une faible prévalence aggrave Second Reader.

(H1) : Nous nous attendons à reproduire la conclusion selon laquelle les critères humains deviennent plus conservateurs à mesure que la prévalence diminue.
(H2) : Nous prévoyons que la pente du zROC résultant sera de 1,0.
(H3) : Nous émettons l'hypothèse qu'une faible prévalence rendra Second Reader AI moins efficace car la valeur prédictive positive de ses commentaires sera faible.
1. Variable dépendante. Décrivez la ou les variables dépendantes clés en précisant comment elles seront mesurées.
  Les principales variables dépendantes d'intérêt sont la précision (et les dérivés de détection de signal de la précision, d' et c), le temps de réaction et les évaluations subjectives de l'enquête suivant chaque bloc.
2. Conditions. À combien et à quelles conditions les participants seront-ils affectés ?

Cette série d'expériences étudie comment la modification de l'entrée d'une IA simulée peut affecter les décisions prises par les observateurs humains dans une tâche à choix forcé à deux alternatives (comme la décision de rappeler une femme pour un examen plus approfondi en mammographie). Nous avons développé un paradigme appelé Human-AI Collaboration Tester (HAICT) qui permet de tester efficacement les interactions entre un humain et une IA simulée.

La tâche des observateurs dans toutes les conditions est de donner une décision 2AFC quant à savoir si un stimulus est "mauvais" ou "pas mauvais". Pour utiliser un langage imitant à peu près un diagnostic médical, chaque stimulus est appelé un « cas ». Les observateurs sont invités à prendre une décision 2AFC sur les tableaux de formes colorées. La décision est prise en fonction de la couleur prédominante de l'affaire. Le nombre d'éléments de chaque couleur est tiré de l'une des deux distributions normales, l'une pour les stimuli positifs (mauvais) et l'autre pour les stimuli négatifs (pas mauvais).

Les résultats des expériences HAICT précédentes (3 et 4) ont montré que les performances humaines dans la condition Second Reader chutent de manière significative à faible prévalence. La performance dans la condition Second Reader était meilleure que la valeur initiale lorsque la prévalence des mauvais cas était de 50 %, mais elle était nettement inférieure à la valeur initiale lorsque la prévalence n'était que de 10 %. Dans cette expérience, nous manipulons la prévalence des "mauvais" cas dans les conditions Second Reader et Baseline. Quatre taux de prévalence différents seront testés : 10 %, 33 %, 67 % et 90 %. Les observateurs rempliront 8 blocs (2 règles d'IA x 4 taux de prévalence), et l'ordre des blocs est aléatoire.

Règles d'IA à tester :

Ligne de base - Aucune entrée d'IA. Observer classe chaque cas comme "mauvais" ou "pas" mauvais.
Deuxième lecteur - L'observateur prend une décision initiale sur chaque cas. L'IA classe silencieusement les stimuli à l'aide d'un critère conservateur (c = 0,5). La logique du critère conservateur est que le deuxième lecteur est utilisé pour réduire les réponses faussement positives et qu'il est donc destiné à remettre en question les réponses humaines positives qui pourraient être marginales. Si l'observateur et l'IA ne sont pas d'accord, l'IA informe l'observateur humain. L'observateur a ensuite la possibilité de modifier sa réponse ou de suivre sa première opinion.
Comme dans les expériences 1 à 5, le d-prime AI est fixé à 2,2. La rétroaction est connue pour augmenter l'effet de prévalence, de sorte que la rétroaction sera donnée à la fois dans la pratique et dans les essais de test. Les observateurs effectueront 20 essais d'entraînement et 200 essais d'essai dans chaque bloc. Immédiatement après la fin de chaque bloc, les observateurs verront un résumé de leur performance. Après les blocs Second Reader, il leur sera également demandé de répondre à trois questions subjectives sur l'utilité de l'IA (voir "Fichiers" pour plus de détails).
Analyses. Précisez précisément les analyses que vous effectuerez pour examiner la question/hypothèse principale.
Tout d'abord, nous résumons le nombre de résultats, de vrais négatifs, d'échecs et de fausses alarmes dans chaque bloc. À partir de là, nous pouvons calculer la précision, la valeur prédictive positive, la sensibilité (d-prime) et le critère pour chaque observateur dans chacune des différentes conditions. Compte tenu des mesures de performance à 4 niveaux de prévalence, nous pouvons estimer la courbe ROC (pHit x pFA) et la fonction zROC (zHit x zFA). Nous allons tester l'hypothèse que la pente du zROC est égale à 1 (conséquence d'une tâche 2AFC à variance égale).
Plus d'analyses. Des analyses secondaires ?
Nous verrons si les opinions subjectives des observateurs sur l'IA sont corrélées avec des variables telles que le d-prime empirique ou la valeur prédictive positive.
Taille de l'échantillon. Combien d'observations seront recueillies ou qu'est-ce qui déterminera la taille de l'échantillon ? Inutile de justifier votre décision, mais soyez précis sur la façon exacte dont le nombre sera déterminé.
Nous testerons 12 observateurs. Ceci est cohérent avec la taille des échantillons des expériences précédentes.
Autre. Y a-t-il autre chose que vous aimeriez pré-inscrire? (ex. exclusions de données, variables collectées à des fins exploratoires, analyses inhabituelles prévues ?)

N / A

Type d'étude

Interventionnel

Inscription (Estimé)

Phase

N'est pas applicable

Contacts et emplacements

Cette section fournit les coordonnées de ceux qui mènent l'étude et des informations sur le lieu où cette étude est menée.

Coordonnées de l'étude

Nom: Jeremy M Wolfe, PhD
Numéro de téléphone: 6178511166
E-mail: jwolfe@bwh.harvard.edu

Lieux d'étude

États-Unis
- Massachusetts
  - Boston, Massachusetts, États-Unis, 02215
    - Recrutement
    - Visual Attention Lab / Brigham and Women's Hospital
    - Contact:
      
      Jeremy M Wolfe
      
      Numéro de téléphone: 617-851-1166
      
      E-mail: jwolfe@bwh.harvard.edu

Critères de participation

Les chercheurs recherchent des personnes qui correspondent à une certaine description, appelée critères d'éligibilité. Certains exemples de ces critères sont l'état de santé général d'une personne ou des traitements antérieurs.

Critère d'éligibilité

Âges éligibles pour étudier

18 ans et plus (Adulte, Adulte plus âgé)

Accepte les volontaires sains

Oui

La description

Critère d'intégration:

- Tous sont invités à s'inscrire en ligne

Critère d'exclusion:

Doit réussir le test de dépistage de la vision des couleurs Ishihara
Vision 20/25 (avec correction)

Plan d'étude

Cette section fournit des détails sur le plan d'étude, y compris la façon dont l'étude est conçue et ce que l'étude mesure.

Comment l'étude est-elle conçue ?

Détails de conception

Objectif principal: Science basique
Répartition: N / A
Modèle interventionnel: Affectation à un seul groupe
Masquage: Aucun (étiquette ouverte)

Nombre de bras

Armes et Interventions

Groupe de participants / Bras	Intervention / Traitement
Expérimental: Expérience Tous les participants sont testés dans toutes les conditions de cette expérience.	Comportemental: Simulation de l'IA du second lecteur Dans cette expérience, dans certaines conditions, le participant prend sa décision en présence d'informations sur une décision d'intelligence artificielle simulée. Comportemental: Prévalence cible La fréquence de présentation des cibles varie de 10% à 90% Autres noms: Taux de base

Que mesure l'étude ?

Principaux critères de jugement

Mesure des résultats	Description de la mesure	Délai
D' Délai: Jusqu'à une semaine	D' (d-prime) est la mesure de la théorie de détection du signal du niveau de performance sur une tâche.	Jusqu'à une semaine
Critère Délai: Jusqu'à une semaine	Le critère est la mesure de la théorie de la détection du signal du biais ("libéral" ou "conservateur") des décisions des observateurs	Jusqu'à une semaine

Mesures de résultats secondaires

Mesure des résultats	Description de la mesure	Délai
Temps de réaction Délai: Jusqu'à une semaine	C'est la mesure du temps qu'il faut pour répondre.	Jusqu'à une semaine

Collaborateurs et enquêteurs

C'est ici que vous trouverez les personnes et les organisations impliquées dans cette étude.

Parrainer

Brigham and Women's Hospital

Les enquêteurs

Chercheur principal: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Dates d'enregistrement des études

Ces dates suivent la progression des dossiers d'étude et des soumissions de résultats sommaires à ClinicalTrials.gov. Les dossiers d'étude et les résultats rapportés sont examinés par la Bibliothèque nationale de médecine (NLM) pour s'assurer qu'ils répondent à des normes de contrôle de qualité spécifiques avant d'être publiés sur le site Web public.

Dates principales de l'étude

Début de l'étude (Réel)

1 janvier 2020

Achèvement primaire (Estimé)

1 août 2024

Achèvement de l'étude (Estimé)

1 janvier 2025

Dates d'inscription aux études

Première soumission

18 février 2022

Première soumission répondant aux critères de contrôle qualité

28 février 2022

Première publication (Réel)

9 mars 2022

Mises à jour des dossiers d'étude

Dernière mise à jour publiée (Réel)

27 juillet 2023

Dernière mise à jour soumise répondant aux critères de contrôle qualité

25 juillet 2023

Dernière vérification

1 juillet 2023

Plus d'information

Termes liés à cette étude

Mots clés

Termes MeSH pertinents supplémentaires

Autres numéros d'identification d'étude

2007P000646-B

Plan pour les données individuelles des participants (IPD)

Prévoyez-vous de partager les données individuelles des participants (DPI) ?

OUI

Description du régime IPD

Les données brutes anonymisées seront publiées sur la page OSF de l'expérience et seront également disponibles sur demande auprès du PI.

Délai de partage IPD

Les matériaux seront disponibles sur demande

Critères d'accès au partage IPD

essentiellement sans restriction

Type d'informations de prise en charge du partage d'IPD

PROTOCOLE D'ÉTUDE
SÈVE
CIF

Informations sur les médicaments et les dispositifs, documents d'étude

Étudie un produit pharmaceutique réglementé par la FDA américaine

Non

Étudie un produit d'appareil réglementé par la FDA américaine

Non

Ces informations ont été extraites directement du site Web clinicaltrials.gov sans aucune modification. Si vous avez des demandes de modification, de suppression ou de mise à jour des détails de votre étude, veuillez contacter register@clinicaltrials.gov. Dès qu'un changement est mis en œuvre sur clinicaltrials.gov, il sera également mis à jour automatiquement sur notre site Web .

Essais cliniques sur Simulation de l'IA du second lecteur

Centre Hospitalier Universitaire de Besancon
University Hospital, Strasbourg, France; University Hospital, Clermont-Ferrand et autres collaborateurs

Inconnue

Évaluation de l'échographie d'urgence rapide pour la dyspnée aiguë (READ)

Dyspnée aiguë
Centre Hospitalier Universitaire de Besancon

Inconnue

Approche multimarqueurs pour la dyspnée aiguë chez les patients âgés admis aux urgences (READ-MA)

Insuffisance cardiaque aiguë | Dyspnée aiguë

France
Columbia University

Complété

L'étude READ-SG : effet des discussions en petits groupes animées par des pairs (READ-SG)

Épuisement professionnel, professionnel | Intelligence émotionnelle | Influence des pairs

États-Unis
Kosin University Gospel Hospital
Inje University

Inconnue

Impact clinique de l'endoscopie de second look après dissection endoscopique sous-muqueuse d'un néoplasme gastrique (SLEGD)

Tumeurs gastriques

Corée, République de
Centre hospitalier de Ville-Evrard, France

Recrutement

Évaluation de la douleur pendant le retard de l'injection intramusculaire en psychiatrie adulte (evadoulim)

Traitement antipsychotique retardé, facteurs pharmacologiques et facteurs individuels

France
Ottawa Hospital Research Institute
The Physicians' Services Incorporated Foundation

Complété

Mesure de la tension artérielle : la technique doit-elle définir des cibles ?

Hypertension

Canada
Centre Leon Berard

Recrutement

Étude des récits de vie de patients faisant une demande d'euthanasie, dans le contexte d'un cancer avancé. (RECIFE)

Cancer avancé

France
University of Luebeck

Complété

Stimulation optocinétique combinée et thérapie de lecture basée sur les repères pour traiter la négligence hémispatiale après un AVC (OKS-READ)

Négligence spatiale

Allemagne
University of Arkansas

Complété

Comportement motivé chez les adultes avec et sans TDAH (MOBE)

TDAH

États-Unis
Duke University

Complété

Cybersanté : Second Life a un impact sur l'éducation et l'autogestion du diabète (SLIDES)

Diabète de type 2

États-Unis

Projet 3 Exemple : testeur de collaboration humain-IA (HAICT) Exp. 7

Aperçu de l'étude

Statut

Les conditions

Intervention / Traitement

Description détaillée

Type d'étude

Inscription (Estimé)

Phase

Contacts et emplacements

Coordonnées de l'étude

Lieux d'étude

Critères de participation

Critère d'éligibilité

Âges éligibles pour étudier

Accepte les volontaires sains

La description

Plan d'étude

Comment l'étude est-elle conçue ?

Détails de conception

Nombre de bras

Armes et Interventions

Groupe de participants / Bras

Intervention / Traitement

Que mesure l'étude ?

Principaux critères de jugement

Mesure des résultats

Description de la mesure

Délai

Mesures de résultats secondaires

Mesure des résultats

Description de la mesure

Délai

Collaborateurs et enquêteurs

Parrainer

Les enquêteurs

Dates d'enregistrement des études

Dates principales de l'étude

Début de l'étude (Réel)

Achèvement primaire (Estimé)

Achèvement de l'étude (Estimé)

Dates d'inscription aux études

Première soumission

Première soumission répondant aux critères de contrôle qualité

Première publication (Réel)

Mises à jour des dossiers d'étude

Dernière mise à jour publiée (Réel)

Dernière mise à jour soumise répondant aux critères de contrôle qualité

Dernière vérification

Plus d'information

Termes liés à cette étude

Mots clés

Termes MeSH pertinents supplémentaires

Autres numéros d'identification d'étude

Plan pour les données individuelles des participants (IPD)

Prévoyez-vous de partager les données individuelles des participants (DPI) ?

Description du régime IPD

Délai de partage IPD

Critères d'accès au partage IPD

Type d'informations de prise en charge du partage d'IPD

Informations sur les médicaments et les dispositifs, documents d'étude

Étudie un produit pharmaceutique réglementé par la FDA américaine

Étudie un produit d'appareil réglementé par la FDA américaine

Essais cliniques sur Simulation de l'IA du second lecteur

Rechercher des essais similaires

Sponsors et collaborateurs

Les conditions médicales

Interventions en matière de drogue

CROs by country

CROs in Kuwait

Conditions

Maladies rares

Interventions en matière de drogue

Compléments alimentaires

Commanditaire / collaborateurs

Emplacements