Unconditional latent diffusion models memorize patient imaging data

Publikation: Beitrag in FachzeitschriftForschungsartikelBeigetragenBegutachtung

Beitragende

  • Salman Ul Hassan Dar - , Universität Heidelberg, Health + Life Science Alliance Heidelberg Mannheim, Deutsches Zentrum für Herz-Kreislaufforschung (DZHK), Universitätsklinikum Heidelberg (Autor:in)
  • Marvin Seyfarth - , Universität Heidelberg, Deutsches Zentrum für Herz-Kreislaufforschung (DZHK), Universitätsklinikum Heidelberg (Autor:in)
  • Isabelle Ayx - , Universitätsmedizin Mannheim (Autor:in)
  • Theano Papavassiliu - , Health + Life Science Alliance Heidelberg Mannheim, Deutsches Zentrum für Herz-Kreislaufforschung (DZHK), Universität Heidelberg (Autor:in)
  • Stefan O. Schoenberg - , Health + Life Science Alliance Heidelberg Mannheim, Universitätsmedizin Mannheim (Autor:in)
  • Robert Malte Siepmann - , Universitätsklinikum Aachen (Autor:in)
  • Fabian Christopher Laqua - , Universitätsklinikum Würzburg (Autor:in)
  • Jannik Kahmann - , Universitätsmedizin Mannheim (Autor:in)
  • Norbert Frey - , Universität Heidelberg, Deutsches Zentrum für Herz-Kreislaufforschung (DZHK), Universitätsklinikum Heidelberg (Autor:in)
  • Bettina Baeßler - , Universitätsklinikum Würzburg (Autor:in)
  • Sebastian Foersch - , Universitätsmedizin Mainz (Autor:in)
  • Daniel Truhn - , Universitätsklinikum Aachen (Autor:in)
  • Jakob Nikolas Kather - , Medizinische Klinik und Poliklinik I, Else Kröner Fresenius Zentrum für Digitale Gesundheit, Nationales Zentrum für Tumorerkrankungen (NCT) Heidelberg (Autor:in)
  • Sandy Engelhardt - , Universität Heidelberg, Health + Life Science Alliance Heidelberg Mannheim, Deutsches Zentrum für Herz-Kreislaufforschung (DZHK), Universitätsklinikum Heidelberg (Autor:in)

Abstract

Generative artificial intelligence models facilitate open-data sharing by proposing synthetic data as surrogates of real patient data. Despite the promise for healthcare, some of these models are susceptible to patient data memorization, where models generate patient data copies instead of novel synthetic samples, resulting in patient re-identification. Here we assess memorization in unconditional latent diffusion models by training them on a variety of datasets for synthetic data generation and detecting memorization with a self-supervised copy detection approach. We show a high degree of patient data memorization across all datasets, with approximately 37.2% of patient data detected as memorized and 68.7% of synthetic samples identified as patient data copies. Latent diffusion models are more susceptible to memorization than autoencoders and generative adversarial networks, and they outperform non-diffusion models in synthesis quality. Augmentation strategies during training, small architecture size and increasing datasets can reduce memorization, while overtraining the models can enhance it. These results emphasize the importance of carefully training generative models on private medical imaging datasets and examining the synthetic data to ensure patient privacy.

Details

OriginalspracheEnglisch
FachzeitschriftNature biomedical engineering
Jahrgang2025
PublikationsstatusElektronische Veröffentlichung vor Drucklegung - 11 Aug. 2025
Peer-Review-StatusJa

Externe IDs

ORCID /0000-0002-3730-5348/work/198594702