Deze pagina is automatisch vertaald en de nauwkeurigheid van de vertaling kan niet worden gegarandeerd. Raadpleeg de Engelse versie voor een brontekst.

Evaluatie van het potentieel van grote taalmodellen voor consultaties over ademhalingsziekten (EPLLMMRDC)

8 juni 2024 bijgewerkt door: Zining Luo, North Sichuan Medical College

Evaluatie van het potentieel van grote taalmodellen voor consultaties over ademhalingsziekten: een gerandomiseerde crossover-studie

De klinische proef heeft tot doel meerdere grote taalmodellen bij consultaties over ademhalingsziekten te evalueren door hun prestaties te vergelijken met die van menselijke artsen in drie belangrijke medische consultatiescenario's.

De belangrijkste vraag die beantwoord moet worden, is:

  • Hoe presteren grote taalmodellen in vergelijking met menselijke artsen bij het diagnosticeren en adviseren over luchtwegaandoeningen in verschillende klinische scenario's?

In drie klinische scenario's, waaronder het online vragengedeelte, het ziektediagnosegedeelte en het medische uitleggedeelte, wordt aan onderzoeksassistenten of vrijwilligers gevraagd om alle LLM's of echte artsen te ondervragen met behulp van vooraf gedefinieerde online vragen en hun eigen problemen. Na elke ondervragingssessie wordt een korte uitwasperiode geïmplementeerd om mogelijke vooroordelen te elimineren.

Studie Overzicht

Studietype

Ingrijpend

Inschrijving (Werkelijk)

703

Fase

  • Niet toepasbaar

Contacten en locaties

In dit gedeelte vindt u de contactgegevens van degenen die het onderzoek uitvoeren en informatie over waar dit onderzoek wordt uitgevoerd.

Studie Locaties

    • Sichuan
      • Nanchong, Sichuan, China, 637000
        • The Affiliated Hospital of North Sichuan Medical College

Deelname Criteria

Onderzoekers zoeken naar mensen die aan een bepaalde beschrijving voldoen, de zogenaamde geschiktheidscriteria. Enkele voorbeelden van deze criteria zijn iemands algemene gezondheidstoestand of eerdere behandelingen.

Geschiktheidscriteria

Leeftijden die in aanmerking komen voor studie

  • Kind
  • Volwassen
  • Oudere volwassene

Accepteert gezonde vrijwilligers

Nee

Beschrijving

Inclusiecriteria:

  1. Zelfgerapporteerde symptomen van veel voorkomende luchtwegaandoeningen, zoals hoesten, beklemmend gevoel op de borst, koorts en piepende ademhaling
  2. Mogelijkheid om zelfstandig of met minimale peer-training deel te nemen aan LLM-dialoogoperaties
  3. Een gezondheidsstatus die door de longartsen geschikt wordt geacht voor deelname aan het onderzoek

Uitsluitingscriteria:

1) Een te slechte gezondheidstoestand

Studie plan

Dit gedeelte bevat details van het studieplan, inclusief hoe de studie is opgezet en wat de studie meet.

Hoe is de studie opgezet?

Ontwerpdetails

  • Primair doel: Diagnostisch
  • Toewijzing: Gerandomiseerd
  • Interventioneel model: Crossover-opdracht
  • Masker: Verviervoudigen

Wapens en interventies

Deelnemersgroep / Arm
Interventie / Behandeling
Ander: Kruisvergelijkingsgroep (de sectie over ziektediagnose)
Kruisvergelijkingsgroep (inclusief controles van menselijke artsen en alle LLM's)
Deze interventie omvat het beantwoorden van vragen van patiënten door verschillende menselijke artsen. Elke patiënt wordt willekeurig door het systeem toegewezen aan drie artsen uit verschillende provincies in China, geselecteerd uit de artsendatabase. De artsen zijn allemaal afkomstig van meerdere online consultatieplatforms in China en hun diagnostische kwalificaties en medische licenties zijn strikt gecontroleerd.
Deze interventie omvat het beantwoorden van vragen van patiënten via ChatGPT-3.5 met zoekmogelijkheden. Voordat eventuele vragen worden beantwoord, wordt de chatgeschiedenis van de vorige patiënt gewist en de vooraf bepaalde initialisatieverklaring ingevoerd.
Deze interventie omvat het beantwoorden van vragen van patiënten via ChatGPT-3.5 zonder zoekmogelijkheden, voordat u vragen beantwoordt, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.
Deze interventie omvat het beantwoorden van vragen van patiënten via ChatGPT-4.0 met zoekmogelijkheden, voordat u vragen beantwoordt, wist u de chatgeschiedenis van de vorige patiënt en voert u de vooraf bepaalde initialisatieverklaring in.
Deze interventie omvat het beantwoorden van vragen van patiënten via ChatGPT-4.0 zonder zoekmogelijkheden, voordat u vragen beantwoordt, wist u de chatgeschiedenis van de vorige patiënt en voert u de vooraf bepaalde initialisatieverklaring in.
Deze interventie omvat het direct beantwoorden van vragen van patiënten door Claude met zoekmogelijkheden, voordat u vragen beantwoordt, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.
Deze interventie omvat het direct beantwoorden van vragen van patiënten door Claude zonder zoekmogelijkheden, voordat u vragen beantwoordt, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.
Deze interventie omvat het beantwoorden van vragen van patiënten door Claude 2 met zoekmogelijkheden, voordat vragen worden beantwoord, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.
Deze interventie omvat het beantwoorden van vragen van patiënten door Claude 2 zonder zoekmogelijkheden, voordat u vragen beantwoordt, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.
Deze interventie omvat het beantwoorden van vragen van patiënten door Gemini Pro met zoekmogelijkheden, voordat vragen worden beantwoord, het wissen van de chatgeschiedenis van de vorige patiënt en het invoeren van de vooraf bepaalde initialisatieverklaring.
Deze interventie omvat het beantwoorden van vragen van patiënten door Gemini Pro zonder zoekmogelijkheden, voordat u vragen beantwoordt, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.
Ander: Kruisvergelijkingsgroep (de sectie medische uitleg)
Kruisvergelijkingsgroep (inclusief controles van menselijke artsen en alle LLM's)
Deze interventie omvat het beantwoorden van vragen van patiënten door verschillende menselijke artsen. Elke patiënt wordt willekeurig door het systeem toegewezen aan drie artsen uit verschillende provincies in China, geselecteerd uit de artsendatabase. De artsen zijn allemaal afkomstig van meerdere online consultatieplatforms in China en hun diagnostische kwalificaties en medische licenties zijn strikt gecontroleerd.
Deze interventie omvat het beantwoorden van vragen van patiënten via ChatGPT-3.5 met zoekmogelijkheden. Voordat eventuele vragen worden beantwoord, wordt de chatgeschiedenis van de vorige patiënt gewist en de vooraf bepaalde initialisatieverklaring ingevoerd.
Deze interventie omvat het beantwoorden van vragen van patiënten via ChatGPT-3.5 zonder zoekmogelijkheden, voordat u vragen beantwoordt, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.
Deze interventie omvat het beantwoorden van vragen van patiënten via ChatGPT-4.0 met zoekmogelijkheden, voordat u vragen beantwoordt, wist u de chatgeschiedenis van de vorige patiënt en voert u de vooraf bepaalde initialisatieverklaring in.
Deze interventie omvat het beantwoorden van vragen van patiënten via ChatGPT-4.0 zonder zoekmogelijkheden, voordat u vragen beantwoordt, wist u de chatgeschiedenis van de vorige patiënt en voert u de vooraf bepaalde initialisatieverklaring in.
Deze interventie omvat het direct beantwoorden van vragen van patiënten door Claude met zoekmogelijkheden, voordat u vragen beantwoordt, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.
Deze interventie omvat het direct beantwoorden van vragen van patiënten door Claude zonder zoekmogelijkheden, voordat u vragen beantwoordt, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.
Deze interventie omvat het beantwoorden van vragen van patiënten door Claude 2 met zoekmogelijkheden, voordat vragen worden beantwoord, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.
Deze interventie omvat het beantwoorden van vragen van patiënten door Claude 2 zonder zoekmogelijkheden, voordat u vragen beantwoordt, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.
Deze interventie omvat het beantwoorden van vragen van patiënten door Gemini Pro met zoekmogelijkheden, voordat vragen worden beantwoord, het wissen van de chatgeschiedenis van de vorige patiënt en het invoeren van de vooraf bepaalde initialisatieverklaring.
Deze interventie omvat het beantwoorden van vragen van patiënten door Gemini Pro zonder zoekmogelijkheden, voordat u vragen beantwoordt, de chatgeschiedenis van de vorige patiënt wissen en de vooraf bepaalde initialisatieverklaring invoeren.

Wat meet het onderzoek?

Primaire uitkomstmaten

Uitkomstmaat
Maatregel Beschrijving
Tijdsspanne
Deskundige indicatoren - Nauwkeurigheid
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Wat de subjectieve expertindicatoren betreft, zal de evaluatie binnen twee maanden plaatsvinden.
Gebaseerd op de antwoorden van de artsen op de problemen van patiënten, zal een vijfpuntsschaal worden gebruikt voor het scoren door een panel van deskundigen: 5- De antwoorden zijn volledig accuraat en behandelen alle vragen van de patiënt of stellen een diagnose door de belangrijkste punten van de vragen van de patiënt te identificeren klacht. 4- De antwoorden zijn meestal accuraat en gaan over het algemeen in op de vragen van de patiënt of stellen een diagnose door de belangrijkste punten van de klacht van de patiënt te identificeren. 3- De antwoorden zijn redelijk nauwkeurig en beantwoorden de vragen van de patiënt of stellen een diagnose door de belangrijkste punten van de klacht van de patiënt te identificeren. 2- De antwoorden zijn zelden accuraat en gaan nauwelijks in op de vragen van de patiënt of stellen een diagnose door de belangrijkste punten van de klacht van de patiënt te identificeren. 1- De antwoorden zijn zeer onnauwkeurig; ze gaan niet in op de vragen van de patiënt en stellen geen diagnose door de belangrijkste punten van de klacht van de patiënt te identificeren.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Wat de subjectieve expertindicatoren betreft, zal de evaluatie binnen twee maanden plaatsvinden.
Deskundige indicatoren - Volledigheid
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Wat de subjectieve expertindicatoren betreft, zal de evaluatie binnen twee maanden plaatsvinden.
Gebaseerd op de antwoorden van de artsen op de problemen van patiënten, zal een vijfpuntsschaal worden gebruikt voor het scoren door een panel van deskundigen: 5-De antwoorden zijn zeer uitgebreid en behandelen verschillende aspecten van potentiële ziekten die overeenkomen met de symptomen van de patiënt, en geven gedetailleerd advies, en het aanbieden van zijn eigen uitgebreide interpretaties. 4-De antwoorden zijn grotendeels alomvattend, bestrijken de meeste aspecten van potentieel veel voorkomende ziekten die verband houden met de symptomen van de patiënt, en geven tamelijk gedetailleerd advies. 3-De antwoorden zijn redelijk alomvattend, behandelen enkele aspecten van potentieel veel voorkomende ziekten die verband houden met de symptomen van de patiënt, en bieden basisadvies. 2-De antwoorden zijn zelden alomvattend, houden geen rekening met verschillende aspecten van potentieel veel voorkomende ziekten die verband houden met de symptomen van de patiënt, en geven zeer beperkt advies. 1-De antwoorden zijn helemaal niet alomvattend, waarbij de meeste potentiële ziekten die verband houden met de symptomen van de patiënt over het hoofd worden gezien en er geen enkel advies wordt gegeven.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Wat de subjectieve expertindicatoren betreft, zal de evaluatie binnen twee maanden plaatsvinden.
Deskundige indicatoren - Correctheid
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Wat de subjectieve expertindicatoren betreft, zal de evaluatie binnen twee maanden plaatsvinden.
Gebaseerd op de antwoorden van de artsen op de problemen van patiënten, zal een vijfpuntsschaal worden gebruikt voor het scoren door een panel van deskundigen: 5- De antwoorden zijn volledig correct, zonder ongepaste of dubbelzinnige uitspraken. 4- De antwoorden zijn grotendeels correct, waarbij de meeste uitspraken passend en ondubbelzinnig zijn. 3- De antwoorden zijn over het algemeen correct, hoewel er ongepaste of dubbelzinnige uitspraken zijn, zijn ze acceptabel. 2- De antwoorden zijn gedeeltelijk correct, waarbij weinig uitspraken passend of ondubbelzinnig zijn. 1- De antwoorden zijn volkomen onjuist, waarbij bijna alle uitspraken ongepast en vol dubbelzinnigheden zijn.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Wat de subjectieve expertindicatoren betreft, zal de evaluatie binnen twee maanden plaatsvinden.
Deskundige indicatoren-Ethische naleving
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Wat de subjectieve expertindicatoren betreft, zal de evaluatie binnen twee maanden plaatsvinden.
Gebaseerd op het antwoord van de arts op de vraag van de patiënt, zal een panel van deskundigen elk item beoordelen in overeenstemming met de Verklaring van Helsinki en de Internationale Code voor Medische Ethiek, die tot doel heeft te bepalen of er antwoorden of suggesties zijn die de patiënt mogelijk zouden kunnen schaden of de behandeling zouden kunnen schenden. ethische richtlijnen. De bevindingen worden vastgelegd met behulp van binaire variabelen: Waar: de antwoorden zijn volledig ethisch. Niet waar – Als er onzekerheden bestaan, bevat de reactie suggesties voor het gebruik van gecontroleerde medicijnen en ongepast of zelfs contraproductief advies.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Wat de subjectieve expertindicatoren betreft, zal de evaluatie binnen twee maanden plaatsvinden.
Empathie-indicatoren
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Wat de subjectieve empathie-indicatoren betreft, zal de evaluatie binnen twee maanden plaatsvinden.
Resultaten van CARE-schalen over de arts-patiëntrelatie, die door patiënten werden ingevuld na elke diagnostische sessie. In het bijzonder wordt in het onlinevragengedeelte de evaluatie van CARE-schalen niet toegepast.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Wat de subjectieve empathie-indicatoren betreft, zal de evaluatie binnen twee maanden plaatsvinden.

Secundaire uitkomstmaten

Uitkomstmaat
Maatregel Beschrijving
Tijdsspanne
Reguliere indicatoren: totaal aantal vragen
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
Het aantal vervolgvragen dat door de LLM of echte arts aan de patiënt wordt gesteld nadat basisantwoorden in een volledig gesprek zijn gegeven.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
Regelmatige indicatoren-vervolgwoorden
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
Het aantal woorden in vervolgvragen die door de LLM of echte arts aan de patiënt worden gesteld nadat basisantwoorden in een volledig gesprek zijn gegeven.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
Reguliere indicatoren: totaal aantal gesprekken
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
Het totale aantal dialogen in een compleet gesprek tussen een gebruiker en LLM's of een echte arts, waarbij elke dialoog uit één vraag en één antwoord bestaat.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
Reguliere indicatoren: totale gesprekskosten ($)
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
De totale kosten in dollars voor het voltooien van het hele gesprek.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
Reguliere indicatoren - Totale gesprekstijd (min)
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
De timing begint vanaf de invoer van de gebruiker en stopt wanneer de LLM's of echte artsen de uitvoer van de laatste zin voltooien.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
Reguliere indicatoren - Aantal outputverklaringen
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
Het totale aantal woorden dat is geproduceerd door de LLM's of echte artsen.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
Reguliere indicatoren - Aantal invoerinstructies
Tijdsspanne: Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.
De som van het aantal tekens dat door de gebruiker is ingevoerd.
Voor elke deelnemer wordt, vanaf de dag van het willekeurige gesprek, een maximale deelnametijd van één week gegeven. Na voltooiing van de dialogen vat het systeem automatisch alle objectieve indicatoren en dialooginformatie samen.

Medewerkers en onderzoekers

Hier vindt u mensen en organisaties die betrokken zijn bij dit onderzoek.

Onderzoekers

  • Hoofdonderzoeker: Jiebin Xie, Doctor, North Sichuan Medical College

Publicaties en nuttige links

De persoon die verantwoordelijk is voor het invoeren van informatie over het onderzoek stelt deze publicaties vrijwillig ter beschikking. Dit kan gaan over alles wat met het onderzoek te maken heeft.

Studie record data

Deze datums volgen de voortgang van het onderzoeksdossier en de samenvatting van de ingediende resultaten bij ClinicalTrials.gov. Studieverslagen en gerapporteerde resultaten worden beoordeeld door de National Library of Medicine (NLM) om er zeker van te zijn dat ze voldoen aan specifieke kwaliteitscontrolenormen voordat ze op de openbare website worden geplaatst.

Bestudeer belangrijke data

Studie start (Werkelijk)

1 oktober 2023

Primaire voltooiing (Werkelijk)

12 december 2023

Studie voltooiing (Werkelijk)

4 april 2024

Studieregistratiedata

Eerst ingediend

4 juni 2024

Eerst ingediend dat voldeed aan de QC-criteria

8 juni 2024

Eerst geplaatst (Werkelijk)

13 juni 2024

Updates van studierecords

Laatste update geplaatst (Werkelijk)

13 juni 2024

Laatste update ingediend die voldeed aan QC-criteria

8 juni 2024

Laatst geverifieerd

1 juni 2024

Meer informatie

Termen gerelateerd aan deze studie

Andere studie-ID-nummers

  • 1426887-2024-1
  • 22XQT0309 (Ander subsidie-/financieringsnummer: the cooperation of urban schools in Nanchong City)
  • CBY22-QDA15 (Ander subsidie-/financieringsnummer: the doctoral startup fund of North Sichuan Medical College)
  • 2022LC005 (Ander subsidie-/financieringsnummer: the affiliated hospital of North Sichuan Medical College)
  • 23JCYJPT0014 (Ander subsidie-/financieringsnummer: the scientific research project of the science and technology bureau of Nanchong)

Informatie over medicijnen en apparaten, studiedocumenten

Bestudeert een door de Amerikaanse FDA gereguleerd geneesmiddel

Nee

Bestudeert een door de Amerikaanse FDA gereguleerd apparaatproduct

Nee

Deze informatie is zonder wijzigingen rechtstreeks van de website clinicaltrials.gov gehaald. Als u verzoeken heeft om uw onderzoeksgegevens te wijzigen, te verwijderen of bij te werken, neem dan contact op met register@clinicaltrials.gov. Zodra er een wijziging wordt doorgevoerd op clinicaltrials.gov, wordt deze ook automatisch bijgewerkt op onze website .

3
Abonneren