Denne side blev automatisk oversat, og nøjagtigheden af oversættelsen er ikke garanteret. Der henvises til engelsk version for en kildetekst.

Preliminary Evaluation of a Large Language Model-Based Tool for Complex Surgical Decision Support in Lung Cancer

13. juni 2026 opdateret af: XiuYuan Chen, Peking University People's Hospital

This study is an exploratory effect-size estimation study, with the following specific objectives: ① to estimate the point estimate and 95% confidence interval of the Win Ratio for the experimental group (GAPS-Agent) versus the control group (large language model) in blinded pairwise preference judgments by thoracic surgery expert adjudicators, to serve as a sample size planning parameter for subsequent multicenter confirmatory clinical trials; ② to preliminarily evaluate the value of GAPS-Agent within clinical workflows.The hypothesis of this study is as follows: compared with a general-purpose large language model without medical enhancement (control group), a structured agentic workflow optimized on the basis of the GAPS evaluation framework (GAPS-Agent, experimental group) can help junior resident physicians generate clinical decision plans for complex lung cancer cases that are more strongly preferred by senior thoracic surgery expert adjudicators.

Studieoversigt

Status

Tilmelding efter invitation

Betingelser

Intervention / Behandling

Undersøgelsestype

Interventionel

Tilmelding (Anslået)

Fase

Ikke anvendelig

Kontakter og lokationer

Dette afsnit indeholder kontaktoplysninger for dem, der udfører undersøgelsen, og oplysninger om, hvor denne undersøgelse udføres.

Studiesteder

Kina
- Beijing Municipality
  - Beijing, Beijing Municipality, Kina, 100044
    - Peking University People's Hospital

Deltagelseskriterier

Forskere leder efter personer, der passer til en bestemt beskrivelse, kaldet berettigelseskriterier. Nogle eksempler på disse kriterier er en persons generelle helbredstilstand eller tidligere behandlinger.

Berettigelseskriterier

Aldre berettiget til at studere

Voksen
Ældre voksen

Tager imod sunde frivillige

Ingen

Beskrivelse

Inclusion Criteria:

Resident Physician Subjects:
1. Holds a valid and legally effective Physician Practice License of the People's Republic of China;
2. Currently holds the rank of resident physician in a thoracic surgery department at a tertiary Class A (3A) hospital;
3. Agrees to complete all assessment tasks of the main study phase in accordance with the study protocol;
4. Can guarantee the time and effort required to complete all assessment tasks of the main study.
Study Cases:
1. The case was discussed at the Thoracic Oncology Multidisciplinary Team (MDT) conference of Peking University People's Hospital between January 2025 and May 2026;
2. The current version of the NCCN guidelines does not provide an explicit recommendation covering the management of the case;
3. Does not overlap with the GAPS evaluation set;
4. The case is presented in pure text in a structured format, with all direct and indirect identifiers removed and complete de-identification performed prior to inclusion;
5. From the pool of eligible cases, 12 cases will be randomly drawn using Python (numpy.random, with a fixed and archived seed) to serve as the main study cases. The cases will cover 6 themes (chest mass of undetermined diagnosis, early-stage lung cancer, locally advanced lung cancer, oligometastatic/oligoprogressive disease, special intraoperative situations, and tumor recurrence), with 2 cases per theme.
Adjudication Expert Panel:
1. Holds a valid and legally effective Physician Practice License of the People's Republic of China;
2. Currently holds the rank of attending physician or above in a thoracic surgery department at a tertiary Class A hospital;
3. Chairs or regularly participates in lung cancer multidisciplinary team (MDT) work in their department.

Exclusion Criteria:

Resident Physician Subjects:
1. Has previously participated in the construction of the GAPS evaluation set or the development of GAPS-Agent;
2. Unable to complete the tasks of the study phase.
Study Cases:
1. Key case information is missing, such as text-form data on pathology (including IHC/NGS), imaging, laboratory tests, prior medical history, comorbidities, or PS score;
2. Decision-making for the case is strictly dependent on non-text information.
Adjudication Expert Panel:
1. Participated in the construction of the GAPS evaluation set, the content validity verification, or the development of GAPS-Agent for this study;
2. Has a direct conflict of interest with any specific product among the two-arm tools of this study.

Studieplan

Dette afsnit indeholder detaljer om studieplanen, herunder hvordan undersøgelsen er designet, og hvad undersøgelsen måler.

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

Primært formål: Andet
Tildeling: Randomiseret
Interventionel model: Parallel tildeling
Maskning: Enkelt

Våben og indgreb

Deltagergruppe / Arm Deltagergruppe / Arm En gruppe eller undergruppe af deltagere i et klinisk forsøg, der modtager en specifik intervention/behandling eller ingen intervention i henhold til forsøgets protokol.	Intervention / Behandling Intervention / Behandling En proces eller handling, der er i fokus for en klinisk undersøgelse. Interventioner omfatter lægemidler, medicinsk udstyr, procedurer, vacciner og andre produkter, der enten er til undersøgelse eller allerede er tilgængelige. Interventioner kan også omfatte ikke-invasive tilgange, såsom uddannelse eller ændring af kost og motion.
Eksperimentel: test arm GAPS-Agent	Andet: GAPS-Agent The research group has previously developed the GAPS evaluation framework for complex clinical decision-making in lung cancer. In this framework, G (Grounding) characterizes the cognitive depth of decision-making (ranging from knowledge retrieval to decisions that go beyond clinical guidelines), A (Authority) corresponds to the grading of evidence strength, P (Perturbation) describes the identification and management of real-world clinical confounding factors, and S (Strength) corresponds to the calibration of recommendation strength. Within this framework, the research group has completed the construction of a 100-item complex lung cancer decision-making evaluation set along with its corresponding rubrics, and has invited multiple thoracic oncology experts to complete content validity validation. Based on this, the research group developed GAPS-Agent, which uses an open-source large language model as its foundation and integrates functional modules such as guideline and evidence retri
Aktiv komparator: control arm LLM	Andet: LLM Open source large language model that is not specifically enhanced in medical field.

Deltagergruppe / Arm

Intervention / Behandling

Eksperimentel: test arm

GAPS-Agent

Andet: GAPS-Agent

The research group has previously developed the GAPS evaluation framework for complex clinical decision-making in lung cancer. In this framework, G (Grounding) characterizes the cognitive depth of decision-making (ranging from knowledge retrieval to decisions that go beyond clinical guidelines), A (Authority) corresponds to the grading of evidence strength, P (Perturbation) describes the identification and management of real-world clinical confounding factors, and S (Strength) corresponds to the calibration of recommendation strength. Within this framework, the research group has completed the construction of a 100-item complex lung cancer decision-making evaluation set along with its corresponding rubrics, and has invited multiple thoracic oncology experts to complete content validity validation. Based on this, the research group developed GAPS-Agent, which uses an open-source large language model as its foundation and integrates functional modules such as guideline and evidence retri

Aktiv komparator: control arm

LLM

Andet: LLM

Open source large language model that is not specifically enhanced in medical field.

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål	Foranstaltningsbeskrivelse	Tidsramme
Overall plan Win Ratio Tidsramme: Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.	A total of 10 blinded expert judges made Win/Tie/Loss ternary preference judgments on 192 paired scheme comparisons in terms of overall scheme quality. The win ratio was calculated as Wins ÷ Losses, and the 95% confidence interval was estimated using a two-level (physician × case) cluster bootstrap resampling method (B = 10,000, quantile method on the log scale).	Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.

Sekundære resultatmål

Resultatmål	Foranstaltningsbeskrivelse	Tidsramme
Inter-rater agreement Tidsramme: Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.	For the ternary preference judgment results of 10 expert judges across 192 paired comparisons and 6 evaluation domains, Fleiss' kappa was used to assess inter-rater agreement. The kappa value and its 95% confidence interval are reported for each evaluation domain.	Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.
Redundancy Win Ratio Tidsramme: Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.	A total of 10 blinded expert judges made Win/Tie/Loss ternary preference judgments on 192 paired scheme comparisons in terms of overall scheme quality. The win ratio was calculated as Wins ÷ Losses, and the 95% confidence interval was estimated using a two-level (physician × case) cluster bootstrap resampling method (B = 10,000, quantile method on the log scale).	Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.
Evidence-based medicine adherence Win Ratio Tidsramme: Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.	A total of 10 blinded expert judges made Win/Tie/Loss ternary preference judgments on 192 paired scheme comparisons in terms of overall scheme quality. The win ratio was calculated as Wins ÷ Losses, and the 95% confidence interval was estimated using a two-level (physician × case) cluster bootstrap resampling method (B = 10,000, quantile method on the log scale).	Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.
Actionability Win Ratio Tidsramme: Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.	A total of 10 blinded expert judges made Win/Tie/Loss ternary preference judgments on 192 paired scheme comparisons in terms of overall scheme quality. The win ratio was calculated as Wins ÷ Losses, and the 95% confidence interval was estimated using a two-level (physician × case) cluster bootstrap resampling method (B = 10,000, quantile method on the log scale).	Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.
Completeness Win Ratio Tidsramme: Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.	A total of 10 blinded expert judges made Win/Tie/Loss ternary preference judgments on 192 paired scheme comparisons in terms of overall scheme quality. The win ratio was calculated as Wins ÷ Losses, and the 95% confidence interval was estimated using a two-level (physician × case) cluster bootstrap resampling method (B = 10,000, quantile method on the log scale).	Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.
Safety Win Ratio Tidsramme: Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.	A total of 10 blinded expert judges made Win/Tie/Loss ternary preference judgments on 192 paired scheme comparisons in terms of overall scheme quality. The win ratio was calculated as Wins ÷ Losses, and the 95% confidence interval was estimated using a two-level (physician × case) cluster bootstrap resampling method (B = 10,000, quantile method on the log scale).	Measured at the time when experts completed their preference judgements. Calculated up to 3 weeks after the preference judgements.
GAPS automated rubric score Tidsramme: Generated up to 3 weeks after residents finished their plan generation.	A third-party large language model, independent of the two study arms' base models, served as the judge model and automatically scored all 96 plans according to the GAPS rubric.	Generated up to 3 weeks after residents finished their plan generation.
Subject physician's self-confidence score Tidsramme: Completed at the time when residents submitted their plans. Calculated up to 3 weeks after the submission.	After submitting each case plan, the participating physicians self-rated their confidence in their own plan using a 1-5 point Likert scale.	Completed at the time when residents submitted their plans. Calculated up to 3 weeks after the submission.
Tool satisfaction score Tidsramme: Completed at the time when residents submitted their plans. Calculated up to 3 weeks after the submission.	After submitting each case plan, the participating physicians rated their satisfaction with the tool using a 1-5 point Likert scale.	Completed at the time when residents submitted their plans. Calculated up to 3 weeks after the submission.
Tool trustworthiness score Tidsramme: Completed at the time when residents submitted their plans. Calculated up to 3 weeks after the submission.	After submitting each case plan, the participating physicians rated the tool's credibility using a 1-5 point Likert scale.	Completed at the time when residents submitted their plans. Calculated up to 3 weeks after the submission.
Decision-making time Tidsramme: Completed at the time when residents submitted their plans. Calculated up to 3 weeks after the submission.	The time taken (in minutes) by each participating physician to complete the production of each case plan was automatically recorded by the evaluation platform. Differences between groups were analyzed using a linear mixed-effects model.	Completed at the time when residents submitted their plans. Calculated up to 3 weeks after the submission.

Samarbejdspartnere og efterforskere

Det er her, du vil finde personer og organisationer, der er involveret i denne undersøgelse.

Sponsor

Peking University People's Hospital

Datoer for undersøgelser

Disse datoer sporer fremskridtene for indsendelser af undersøgelsesrekord og resumeresultater til ClinicalTrials.gov. Studieregistreringer og rapporterede resultater gennemgås af National Library of Medicine (NLM) for at sikre, at de opfylder specifikke kvalitetskontrolstandarder, før de offentliggøres på den offentlige hjemmeside.

Studer store datoer

Studiestart (Faktiske)

10. juni 2026

Primær færdiggørelse (Anslået)

21. juni 2026

Studieafslutning (Anslået)

21. juni 2026

Datoer for studieregistrering

Først indsendt

10. juni 2026

Først indsendt, der opfyldte QC-kriterier

13. juni 2026

Først opslået (Faktiske)

17. juni 2026

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

17. juni 2026

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

13. juni 2026

Sidst verificeret

1. juni 2026

Mere information

Begreber relateret til denne undersøgelse

Nøgleord

Yderligere relevante MeSH-vilkår

Andre undersøgelses-id-numre

2026PHB458-001

Plan for individuelle deltagerdata (IPD)

Planlægger du at dele individuelle deltagerdata (IPD)?

INGEN

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Ingen

Studerer et amerikansk FDA-reguleret enhedsprodukt

Ingen

Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .

Kliniske forsøg med Lungekræft (NSCLC)

NCT03770793

Afsluttet

Effektiviteten af Lung Sono i One-lung Ventilation

One Lung Ventilation
NCT03282032

Afsluttet

Forkonditionering af One-lung Ventilation

One Lung Ventilation
NCT01652612

Afsluttet

Positivt endeekspiratorisk tryk og alveolær rekruttering til én lungeventilation

One Lung Ventilation
NCT00826956

Midlertidigt ikke tilgængelig

Ændringen af pulmonal blodgennemstrømning under én lungeventilation

One Lung Ventilation
NCT05441202

Rekruttering

Kohorteundersøgelse af lungeknudeintervention (LNICS)

Hændelse Lung Nodule
NCT05851612

Afsluttet

Sammenligning af tre metoder til PEEP-titrering under én lungeventilation i liggende stilling

One Lung Ventilation
NCT06064773

Afsluttet

Evaluering af en lungeventilation med ultralyd ved thoraxkirurgiske operationer

One Lung Ventilation
NCT06466759

Ikke rekrutterer endnu

Videolaryngoskopi vs direkte laryngoskopi til placering af lumenrør med dobbelt lumen - Et multicenter randomiseret-kontrolleret forsøg (VOLCANO-undersøgelse) (VOLCANO)

Intubationskomplikation | One Lung Ventilation
NCT07381517

Ikke rekrutterer endnu

Korrelation mellem iltnings- og mætningsindekser i enlungeventilation (OLV-INDICES)

One-lung Ventilation (OLV)
NCT02424487

Afsluttet

Intracuff-tryk under en-lungeventilation hos spædbørn og børn

One-lung Ventilation (OLV)

Kliniske forsøg med GAPS-Agent

NCT01839942

Afsluttet

Tilbagefald og patienttilfredshed efter laparoskopisk brokreparation med intraperitoneal onlay-mesh (IPOM) (SGChirIPOM)

Ventral brok | Tilbagevendende ventral brok
NCT05618795

Rekruttering

"Sammenlignende evaluering af Aggressive Gap Arthroplasty Med Minimal Gap Arthroplasty i håndteringen af TMJ Ankylose"

Arthoplastik
NCT07169253

Afsluttet

Sammenligning af prognostisk score i IPF og HP

Overfølsomhed Pneumonitis | Interstitiel lungesygdom (ILD) | IPF | Fibrotisk lungesygdom
NCT04056052

Afsluttet

Et randomiseret sammenligningsforsøg, der undersøger virkningen af et familiebaseret madlavningsværksted

Kostvane
NCT00510029

Afsluttet

Enkelt stigende dosis undersøgelse af sikkerhed, tolerabilitet og farmakokinetik af GAP-134 administreret intravenøst

Arytmi
NCT00543946

Afsluttet

Enkelt stigende dosis af GAP-134 som en 24-timers IV-infusion hos raske japanske mænd

Arytmi
NCT05078164

Rekruttering

Forebyggelse af skydevåbenvold hos unge: En hospitalsbaseret forebyggelsesstrategi

Vold i ungdomsårene
NCT00783341

Afsluttet

Undersøgelse af sikkerhed, tolerabilitet og farmakokinetik af GAP-134 administreret intravenøst

Sunde emner
NCT07451587

Ikke rekrutterer endnu

Personlig Plejeforvaltningsmodel (GAP-421) for Kroniske Smerter i Primær Sundhedsplejefysioterapi (GAP-421)

Muskuloskeletale smerter | Kronisk smerte | Primær sundhedspleje | Plejekoordinering | Kronisk ikke-kræft smerte
NCT03290170

Ukendt

Radiostereometrisk analyse af mellemrumsbalancering versus målt resektion til Journey II total knæudskiftning

Knæ slidgigt | Knæarthroplastik

Preliminary Evaluation of a Large Language Model-Based Tool for Complex Surgical Decision Support in Lung Cancer

Studieoversigt

Status

Betingelser

Intervention / Behandling

Undersøgelsestype

Tilmelding (Anslået)

Fase

Kontakter og lokationer

Studiesteder

Deltagelseskriterier

Berettigelseskriterier

Aldre berettiget til at studere

Tager imod sunde frivillige

Beskrivelse

Studieplan

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

Antal våben

Våben og indgreb

Deltagergruppe / Arm

Intervention / Behandling

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål

Foranstaltningsbeskrivelse

Tidsramme

Sekundære resultatmål

Resultatmål

Foranstaltningsbeskrivelse

Tidsramme

Samarbejdspartnere og efterforskere

Sponsor

Datoer for undersøgelser

Studer store datoer

Studiestart (Faktiske)

Primær færdiggørelse (Anslået)

Studieafslutning (Anslået)

Datoer for studieregistrering

Først indsendt

Først indsendt, der opfyldte QC-kriterier

Først opslået (Faktiske)

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

Sidst verificeret

Mere information

Begreber relateret til denne undersøgelse

Nøgleord

Yderligere relevante MeSH-vilkår

Andre undersøgelses-id-numre

Plan for individuelle deltagerdata (IPD)

Planlægger du at dele individuelle deltagerdata (IPD)?

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Studerer et amerikansk FDA-reguleret enhedsprodukt

Kliniske forsøg med Lungekræft (NSCLC)

Kliniske forsøg med GAPS-Agent

Søg i lignende forsøg

Sponsorer og samarbejdspartnere

Medicinske tilstande

Narkotikainterventioner

Betingelser

Sjældne sygdomme

Narkotikainterventioner

Kosttilskud

Sponsor / samarbejdspartnere

Placeringer