Effects of Label Noise on Deep Learning-Based Skin Cancer Classification

Achim Hekler; Jakob N. Kather; Eva Krieghoff-Henning; Jochen S. Utikal; Friedegund Meier; Frank F. Gellrich; Julius Upmeier zu Belzen; Lars French; Justin G. Schlager; Kamran Ghoreschi; Tabea Wilhelm; Heinz Kutzner; Carola Berking; Markus V. Heppt; Sebastian Haferkamp; Wiebke Sondermann; Dirk Schadendorf; Bastian Schilling; Benjamin Izar; Roman Maron; Max Schmitt; Stefan Fröhling; Daniel B. Lipka; Titus J. Brinker

doi:10.3389/fmed.2020.00177

Effects of Label Noise on Deep Learning-Based Skin Cancer Classification

Publikation: Beitrag in Fachzeitschrift › Forschungsartikel › Beigetragen › Begutachtung

Beitragende

Achim Hekler - , Deutsches Krebsforschungszentrum (DKFZ) (Autor:in)
Jakob N. Kather - , Deutsches Krebsforschungszentrum (DKFZ), Rheinisch-Westfälische Technische Hochschule Aachen (Autor:in)
Eva Krieghoff-Henning - , Deutsches Krebsforschungszentrum (DKFZ) (Autor:in)
Jochen S. Utikal - , Universität Heidelberg, Deutsches Krebsforschungszentrum (DKFZ) (Autor:in)
Friedegund Meier - , Klinik und Poliklinik für Dermatologie, Nationales Centrum für Tumorerkrankungen Dresden, Hauttumorzentrum, Universitätsklinikum Carl Gustav Carus Dresden (Autor:in)
Frank F. Gellrich - , Klinik und Poliklinik für Dermatologie, Nationales Centrum für Tumorerkrankungen Dresden, Hauttumorzentrum, Universitätsklinikum Carl Gustav Carus Dresden (Autor:in)
Julius Upmeier zu Belzen - , Berliner Institut für Gesundheitsforschung in der Charité (Autor:in)
Lars French - , Ludwig-Maximilians-Universität München (LMU) (Autor:in)
Justin G. Schlager - , Ludwig-Maximilians-Universität München (LMU) (Autor:in)
Kamran Ghoreschi - , Charité – Universitätsmedizin Berlin (Autor:in)
Tabea Wilhelm - , Charité – Universitätsmedizin Berlin (Autor:in)
Heinz Kutzner - , Medizinisches Versorgungszentrum (MVZ) Dermapathologie Friedrichshafen/Bodensee PartG (Autor:in)
Carola Berking - , Friedrich-Alexander-Universität Erlangen-Nürnberg (Autor:in)
Markus V. Heppt - , Friedrich-Alexander-Universität Erlangen-Nürnberg (Autor:in)
Sebastian Haferkamp - , Universität Regensburg (Autor:in)
Wiebke Sondermann - , Universität Duisburg-Essen (Autor:in)
Dirk Schadendorf - , Universität Duisburg-Essen (Autor:in)
Bastian Schilling - , Julius-Maximilians-Universität Würzburg (Autor:in)
Benjamin Izar - , Dana-Farber Cancer Institute (Autor:in)
Roman Maron - , Deutsches Krebsforschungszentrum (DKFZ) (Autor:in)
Max Schmitt - , Deutsches Krebsforschungszentrum (DKFZ) (Autor:in)
Stefan Fröhling - , Deutsches Krebsforschungszentrum (DKFZ) (Autor:in)
Daniel B. Lipka - , Deutsches Krebsforschungszentrum (DKFZ), Otto-von-Guericke-Universität Magdeburg (Autor:in)
Titus J. Brinker - , Deutsches Krebsforschungszentrum (DKFZ) (Autor:in)

Abstract

Recent studies have shown that deep learning is capable of classifying dermatoscopic images at least as well as dermatologists. However, many studies in skin cancer classification utilize non-biopsy-verified training images. This imperfect ground truth introduces a systematic error, but the effects on classifier performance are currently unknown. Here, we systematically examine the effects of label noise by training and evaluating convolutional neural networks (CNN) with 804 images of melanoma and nevi labeled either by dermatologists or by biopsy. The CNNs are evaluated on a test set of 384 images by means of 4-fold cross validation comparing the outputs with either the corresponding dermatological or the biopsy-verified diagnosis. With identical ground truths of training and test labels, high accuracies with 75.03% (95% CI: 74.39–75.66%) for dermatological and 73.80% (95% CI: 73.10–74.51%) for biopsy-verified labels can be achieved. However, if the CNN is trained and tested with different ground truths, accuracy drops significantly to 64.53% (95% CI: 63.12–65.94%, p < 0.01) on a non-biopsy-verified and to 64.24% (95% CI: 62.66–65.83%, p < 0.01) on a biopsy-verified test set. In conclusion, deep learning methods for skin cancer classification are highly sensitive to label noise and future work should use biopsy-verified training images to mitigate this problem.

Details

Originalsprache	Englisch
Aufsatznummer	177
Fachzeitschrift	Frontiers in medicine
Jahrgang	7
Publikationsstatus	Veröffentlicht - 6 Mai 2020
Peer-Review-Status	Ja

Externe IDs

Scopus	85085189217
ORCID	/0000-0003-4340-9706/work/157319236

Forschungsportal der TU Dresden

Effects of Label Noise on Deep Learning-Based Skin Cancer Classification

Beitragende

Abstract

Details

Externe IDs

Schlagworte

Ziele für nachhaltige Entwicklung

Schlagwörter