Esta página se tradujo automáticamente y no se garantiza la precisión de la traducción. por favor refiérase a versión inglesa para un texto fuente.

Ejemplo de proyecto 3: Probador de colaboración humano-IA (HAICT) Exp. 7

25 de julio de 2023 actualizado por: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
El estudio es una parte de un "paquete" de experimentos que constituyen el Proyecto Tres de una subvención del Instituto Nacional del Ojo. El Proyecto Tres incluye una serie de experimentos que investigan cómo cambiar la entrada de una IA simulada puede afectar las decisiones tomadas por los observadores humanos en una tarea de elección forzada de dos alternativas (como la decisión de llamar a una mujer para un examen más detallado en una mamografía). HAICT 7, el experimento descrito aquí, investiga cómo el cambio de la prevalencia afecta el desempeño humano cuando la IA se usa como segundo lector.

Descripción general del estudio

Descripción detallada

Este texto es el texto de la preinscripción para el experimento HAICT 7 como se describe en Open Science Framework. https://osf.io/hngu4/

NOTA: Este estudio es representativo de los estudios realizados en el Proyecto 3 de esta subvención. Hay varios experimentos en el paquete de experimentos representado por el Proyecto 3, pero no es posible registrar un paquete de estudios en CT.gov.

NOTA: Dado que el comentario del pronombre es un consejo, lo dejaremos por ahora.

Probador de colaboración humano-IA (HAICT) Exp. 7 (ligeramente editado de OSF)

  1. Recopilación de datos. ¿Ya se han recopilado datos para este estudio? (Sí No)

  2. Hipótesis. ¿Cuál es la pregunta principal que se hace o la hipótesis que se prueba en este estudio?

Antecedentes: en una variedad de experimentos de búsqueda, tanto básicos como clínicos, los datos han sido consistentes con una situación en la que la variabilidad de la señal (u objetivo) es mayor que la variabilidad del ruido (distractores). El signo clásico de esto es una función zROC con una pendiente < 1, normalmente alrededor de 0,6. Una pendiente de 1,0 es indicativa de una tarea 2AFC de igual varianza. Para la tarea HAICT que hemos estado probando, esperaríamos una varianza igual, pero creemos que valdría la pena comprobarlo, por lo que variaremos sistemáticamente la prevalencia, lo que cambiará el criterio. Eso barrerá una curva ROC que podemos examinar.

También probaremos la IA falsa de Second Reader para determinar si la baja prevalencia empeora a Second Reader.

  • (H1): Esperamos replicar el hallazgo de que los criterios humanos se vuelven más conservadores a medida que disminuye la prevalencia.
  • (H2): Predecimos que la pendiente del zROC resultante será 1.0.
  • (H3): Tenemos la hipótesis de que una prevalencia baja hará que la IA de Second Reader sea menos efectiva porque el valor predictivo positivo de sus comentarios será bajo.

    1. Variable dependiente. Describa la(s) variable(s) dependiente(s) clave especificando cómo se medirán.

      Las principales variables dependientes de interés son la precisión (y las derivadas de detección de la señal de la precisión, d' y c), el tiempo de reacción y las calificaciones subjetivas en la encuesta que sigue a cada bloque.

    2. Condiciones. ¿A cuántos y en qué condiciones se asignarán los participantes?

Esta serie de experimentos investiga cómo cambiar la entrada de una IA simulada puede afectar las decisiones tomadas por los observadores humanos en una tarea de elección forzada de dos alternativas (como la decisión de llamar a una mujer para un examen más detallado en una mamografía). Hemos desarrollado un paradigma llamado Human-AI Collaboration Tester (HAICT) que permite probar de manera eficiente las interacciones entre un ser humano y una IA simulada.

La tarea de los observadores en todas las condiciones es dar una decisión 2AFC sobre si un estímulo es "malo" o "no malo". Para usar un lenguaje que imita aproximadamente un diagnóstico médico, cada estímulo se denomina "caso". Se pide a los observadores que tomen una decisión 2AFC sobre conjuntos de formas de colores. La decisión se toma en base al color predominante del caso. El número de elementos de cada color se extrae de una de las dos distribuciones normales, una para estímulos positivos (malos) y otra para estímulos negativos (no malos).

Los resultados de los experimentos anteriores de HAICT (3 y 4) mostraron que el rendimiento humano en la condición de Segundo Lector cae significativamente a baja prevalencia. El desempeño en la condición de segundo lector fue mejor que en la línea base cuando la prevalencia de casos graves fue del 50 %, pero fue significativamente peor que en la línea base cuando la prevalencia fue solo del 10 %. En este experimento, manipulamos la prevalencia de casos "malos" en las condiciones del segundo lector y de la línea de base. Se evaluarán cuatro tasas de prevalencia diferentes: 10 %, 33 %, 67 % y 90 %. Los observadores completarán 8 bloques (2 reglas de IA x 4 tasas de prevalencia) y el orden de los bloques es aleatorio.

Reglas de IA a probar:

  1. Línea de base: sin entrada de IA. Observer clasifica cada caso como "malo" o "no" malo por sí solo.
  2. Segundo lector: el observador toma una decisión inicial sobre cada caso. La IA clasifica silenciosamente los estímulos utilizando un criterio conservador (c = 0,5). La lógica del criterio conservador es que el segundo lector se utiliza para reducir las respuestas positivas falsas y, por lo tanto, pretende cuestionar las respuestas humanas positivas que podrían ser marginales. Si el observador y la IA no están de acuerdo, la IA informa al observador humano. Luego, el observador tiene la oportunidad de cambiar su respuesta o elegir su primera opinión.

    Como en los Experimentos 1-5, el AI d-prime se fija en 2.2. Se sabe que la retroalimentación aumenta el efecto de prevalencia, por lo que se brindará retroalimentación tanto en la práctica como en los ensayos de prueba. Los observadores completarán 20 ensayos de práctica y 200 ensayos de prueba en cada bloque. Inmediatamente después de completar cada bloque, a los observadores se les mostrará un resumen de su desempeño. Después de los bloques del segundo lector, también se les pedirá que respondan tres preguntas subjetivas sobre la utilidad de la IA (consulte "Archivos" para obtener más detalles).

  3. Análisis. Especifique exactamente qué análisis llevará a cabo para examinar la pregunta/hipótesis principal.

    Primero, resumimos el número de aciertos, verdaderos negativos, fallas y falsas alarmas en cada bloque. A partir de esto, podemos calcular la precisión, el valor predictivo positivo, la sensibilidad (d-prima) y el criterio para cada observador en cada una de las diferentes condiciones. Dadas las medidas de desempeño en 4 niveles de prevalencia, podemos estimar la curva ROC (pHit x pFA) y la función zROC (zHit x zFA). Probaremos la hipótesis de que la pendiente de la zROC es igual a 1 (la consecuencia de una tarea 2AFC de igual varianza).

  4. Más análisis. ¿Algún análisis secundario?

    Veremos si las opiniones subjetivas de los observadores sobre la IA están correlacionadas con variables como el d-primo empírico o el valor predictivo positivo.

  5. Tamaño de la muestra. ¿Cuántas observaciones se recopilarán o qué determinará el tamaño de la muestra? No es necesario justificar la decisión, pero sea preciso acerca de cómo se determinará exactamente el número.

    Pondremos a prueba a 12 observadores. Esto es consistente con los tamaños de muestra de experimentos anteriores.

  6. Otro. ¿Hay algo más que le gustaría pre-registrarse? (por ejemplo, ¿exclusiones de datos, variables recopiladas con fines exploratorios, análisis inusuales planificados?)

N / A

Tipo de estudio

Intervencionista

Inscripción (Estimado)

15

Fase

  • No aplica

Contactos y Ubicaciones

Esta sección proporciona los datos de contacto de quienes realizan el estudio e información sobre dónde se lleva a cabo este estudio.

Estudio Contacto

Ubicaciones de estudio

    • Massachusetts
      • Boston, Massachusetts, Estados Unidos, 02215
        • Reclutamiento
        • Visual Attention Lab / Brigham and Women's Hospital
        • Contacto:

Criterios de participación

Los investigadores buscan personas que se ajusten a una determinada descripción, denominada criterio de elegibilidad. Algunos ejemplos de estos criterios son el estado de salud general de una persona o tratamientos previos.

Criterio de elegibilidad

Edades elegibles para estudiar

18 años y mayores (Adulto, Adulto Mayor)

Acepta Voluntarios Saludables

Descripción

Criterios de inclusión:

  • - Todos bienvenidos a inscribirse en línea

Criterio de exclusión:

  • Debe pasar la prueba de detección de la visión del color de Ishihara
  • Visión 20/25 (con corrección)

Plan de estudios

Esta sección proporciona detalles del plan de estudio, incluido cómo está diseñado el estudio y qué mide el estudio.

¿Cómo está diseñado el estudio?

Detalles de diseño

  • Propósito principal: Ciencia básica
  • Asignación: N / A
  • Modelo Intervencionista: Asignación de un solo grupo
  • Enmascaramiento: Ninguno (etiqueta abierta)

Armas e Intervenciones

Grupo de participantes/brazo
Intervención / Tratamiento
Experimental: Experimento
Todos los participantes son probados en todas las condiciones de este experimento.
En este experimento, en algunas condiciones, el participante toma su decisión en presencia de información sobre una decisión de inteligencia artificial simulada.
La frecuencia con la que se presentan los objetivos varía del 10% al 90%
Otros nombres:
  • Tasa básica

¿Qué mide el estudio?

Medidas de resultado primarias

Medida de resultado
Medida Descripción
Periodo de tiempo
D'
Periodo de tiempo: Hasta una semana
D' (d-prime) es la medida de la teoría de detección de señales del nivel de rendimiento en una tarea.
Hasta una semana
Criterio
Periodo de tiempo: Hasta una semana
El criterio es la medida de la teoría de detección de señales del sesgo ("liberal" o "conservador") de las decisiones de los observadores.
Hasta una semana

Medidas de resultado secundarias

Medida de resultado
Medida Descripción
Periodo de tiempo
Tiempo de reacción
Periodo de tiempo: Hasta una semana
Esta es la medida de cuánto tiempo lleva dar una respuesta.
Hasta una semana

Colaboradores e Investigadores

Aquí es donde encontrará personas y organizaciones involucradas en este estudio.

Investigadores

  • Investigador principal: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Fechas de registro del estudio

Estas fechas rastrean el progreso del registro del estudio y los envíos de resultados resumidos a ClinicalTrials.gov. Los registros del estudio y los resultados informados son revisados ​​por la Biblioteca Nacional de Medicina (NLM) para asegurarse de que cumplan con los estándares de control de calidad específicos antes de publicarlos en el sitio web público.

Fechas importantes del estudio

Inicio del estudio (Actual)

1 de enero de 2020

Finalización primaria (Estimado)

1 de agosto de 2024

Finalización del estudio (Estimado)

1 de enero de 2025

Fechas de registro del estudio

Enviado por primera vez

18 de febrero de 2022

Primero enviado que cumplió con los criterios de control de calidad

28 de febrero de 2022

Publicado por primera vez (Actual)

9 de marzo de 2022

Actualizaciones de registros de estudio

Última actualización publicada (Actual)

27 de julio de 2023

Última actualización enviada que cumplió con los criterios de control de calidad

25 de julio de 2023

Última verificación

1 de julio de 2023

Más información

Términos relacionados con este estudio

Términos MeSH relevantes adicionales

Otros números de identificación del estudio

  • 2007P000646-B

Plan de datos de participantes individuales (IPD)

¿Planea compartir datos de participantes individuales (IPD)?

Descripción del plan IPD

Los datos en bruto desidentificados se publicarán en la página OSF del experimento y también estarán disponibles a pedido del IP.

Marco de tiempo para compartir IPD

Los materiales estarán disponibles cuando se soliciten.

Criterios de acceso compartido de IPD

esencialmente sin restricciones

Tipo de información de apoyo para compartir IPD

  • PROTOCOLO DE ESTUDIO
  • SAVIA
  • CIF

Información sobre medicamentos y dispositivos, documentos del estudio

Estudia un producto farmacéutico regulado por la FDA de EE. UU.

No

Estudia un producto de dispositivo regulado por la FDA de EE. UU.

No

Esta información se obtuvo directamente del sitio web clinicaltrials.gov sin cambios. Si tiene alguna solicitud para cambiar, eliminar o actualizar los detalles de su estudio, comuníquese con register@clinicaltrials.gov. Tan pronto como se implemente un cambio en clinicaltrials.gov, también se actualizará automáticamente en nuestro sitio web. .

3
Suscribir