Hallucination filtering in radiology vision-language models using discrete semantic entropy

Patrick Wienholt; Sophie Caselitz; Robert Siepmann; Philipp Bruners; Keno Bressem; Christiane Kuhl; Jakob Nikolas Kather; Sven Nebelung; Daniel Truhn

doi:10.1007/s00330-026-12384-z

Hallucination filtering in radiology vision-language models using discrete semantic entropy

Publikation: Beitrag in Fachzeitschrift › Forschungsartikel › Beigetragen › Begutachtung

Beitragende

Patrick Wienholt - , Universitätsklinikum Aachen (Autor:in)
Sophie Caselitz - , Universitätsklinikum Aachen (Autor:in)
Robert Siepmann - , Universitätsklinikum Aachen (Autor:in)
Philipp Bruners - , Universitätsklinikum Aachen (Autor:in)
Keno Bressem - , Klinikum Rechts der Isar (MRI TUM) (Autor:in)
Christiane Kuhl - , Universitätsklinikum Aachen (Autor:in)
Jakob Nikolas Kather - , Medizinische Klinik und Poliklinik I, Else Kröner Fresenius Zentrum für Digitale Gesundheit, University of Leeds, Nationales Zentrum für Tumorerkrankungen (NCT) Heidelberg (Autor:in)
Sven Nebelung - , Universitätsklinikum Aachen (Autor:in)
Daniel Truhn - , Universitätsklinikum Aachen (Autor:in)

Abstract

Objective: To determine whether using discrete semantic entropy (DSE) to reject questions likely to generate hallucinations can improve the accuracy of black-box vision-language models (VLMs) in radiologic image-based visual question answering (VQA). Materials and methods: This retrospective study evaluated DSE using two publicly available, de-identified datasets: the VQA-Med 2019 benchmark (500 images with clinical questions and short-text answers) and a diagnostic radiology dataset (206 cases: 60 computed tomography scans, 60 magnetic resonance images, 60 radiographs, 26 angiograms) with corresponding ground-truth diagnoses. GPT-4o and GPT-4.1 (Generative Pretrained Transformer) answered each question 15 times using a temperature of 1.0. Baseline accuracy was determined using low-temperature answers (0.1). Meaning-equivalent responses were grouped using bidirectional entailment checks, and DSE was computed from the relative frequencies of the resulting semantic clusters. Accuracy was recalculated after excluding questions with DSE > 0.6 or > 0.3. p values and 95% confidence intervals were obtained using bootstrap resampling and a Bonferroni-corrected threshold of p < 0.004 for statistical significance. Results: Across 706 image–question pairs, baseline accuracy was 51.7% for GPT-4o and 54.8% for GPT-4.1. After filtering out high-entropy questions (DSE > 0.3), accuracy on the remaining questions was 76.3% (retained questions: 334/706) for GPT-4o and 63.8% (retained questions: 499/706) for GPT-4.1 (both p < 0.001). Accuracy gains were observed across both datasets and largely remained statistically significant after Bonferroni correction. Conclusion: DSE enables reliable hallucination detection in black-box VLMs by quantifying semantic inconsistency. This method significantly improves diagnostic answer accuracy and offers a filtering strategy for clinical VLM applications. Key Points: Question Can DSE identify hallucination-prone questions and improve the reliability of black-box vision–language models in radiologic image-based VQA? Findings DSE filtering at a 0.3 threshold increased GPT-4o accuracy from 51.7% to 76.3% and GPT-4.1 from 54.8% to 63.8%, while answering fewer questions. Clinical relevance Integrating DSE as a black-box uncertainty filter enables selective answering and explicit uncertainty display for radiology vision–language tools, supporting safer diagnostic use, mitigating hallucinations, and improving clinicians’ trust in AI-assisted image interpretation.

Details

Originalsprache	Englisch
Seiten (von - bis)	6107–6118
Seitenumfang	12
Fachzeitschrift	European radiology
Jahrgang	36
Ausgabenummer	7
Frühes Online-Datum	20 Feb. 2026
Publikationsstatus	Veröffentlicht - Juli 2026
Peer-Review-Status	Ja

Externe IDs

ORCID	/0000-0002-3730-5348/work/211722513
PubMed	41720937

Schlagworte

ASJC Scopus Sachgebiete

Radiologie, Nuklearmedizin und Bildgebung

Schlagwörter

Data accuracy, Diagnostic imaging, Entropy, Generative artificial intelligence, Image interpretation (Computer-assisted)

Forschungsportal der TU Dresden