JavaScript is Disabled
Your browser's JavaScript functionality is disabled. It has to be enabled to use this function of ConfTool.
Here you can find information on how to enable JavaScript
If you have any problems, please contact the organizers at statistische-woche@dstatg.de.

Conference Agenda

Overview and details of the sessions of this conference. Please select a date or location to show only sessions at that day or location. Please select a single session for detailed view (with abstracts and downloads if available).

Daily Overview

Session

MSE5: Methodology of Statistical Surveys 5

Time:

Thursday, 04/Sept/2025:

2:20pm - 4:00pm

Session Chair: Michael Buchner, Statistisches Bundesamt, Germany

Location: E.03.112

Presentations

2:20pm - 2:45pm

Geheimhaltung georeferenzierter Ergebnisse der Lohn- und Einkommensteuerstatistik durch lokale Aggregation mit Hilfe des Quadtree-Verfahrens

Michael Buchner¹, Robert Garthoff²

¹Statistisches Bundesamt, Deutschland; ²Statistisches Landesamt des Freistaates Sachsen, Deutschland

Seit dem Berichtsjahr 2019 liegen die Ergebnisse der Lohn- und Einkommensteuerstatistik in georeferenzierter Form auf Basis von Gitterzellen mit 100m-Rasterweite vor. Während sich damit zahlreiche neue Auswertungsmöglichkeiten ergeben, erhöht sich gleichzeitig der Geheimhaltungsbedarf erheblich. Die lokale Aggregation – und anschließende Disaggrega-tion der zusammengefassten Werte in das Ausgangsraster – mit Hilfe der Erzeugung hierarchischer Quadtrees erweist sich für die Lohn- und Einkommensteuerstatistik als besonders vielversprechender Ansatz. Er ist zum einen kompatibel zum Verfahren der Zellsperrung, welches für rein tabellarische Auswertungen bislang genutzt wird. Zum anderen ermöglicht das Quadtree-Verfahren die Bereitstellung der den kartografischen Darstellungen zugrunde liegenden Daten in einer für den Nutzer grundsätzlich leicht nachvollziehbaren Form. In der praktischen Anwendung des Quadtree-Verfahrens auf die Daten der Lohn- und Einkommensteuerstatistik ergeben sich jedoch zwei methodische Herausforderungen. Zum einen sind die Daten lokal sehr unterschiedlich konzentriert, wodurch zum Teil sehr starke Aggregationen, mit entsprechenden Informationsverlusten, nötig werden. Zum anderen wer-den die Ergebnisse der Lohn- und Einkommensteuerstatistik auch auf Ebene von Verwaltungseinheiten sehr intensiv genutzt. Dies betraf bislang Auswertungen bis auf Gemeindeebene. Mit der Georeferenzierung der Statistik sind nun aber auch kleinräumige Auswertungen unterhalb der Gemeindeebene, auf Basis unterschiedlicher Städtesystematiken, möglich. Damit stellt sich in zu-nehmendem Maße das Problem der Aufdeckung von Geheimhaltungsfällen durch geografische „Verschneidung“ von Auswertungen auf Gitterzellenbasis einerseits sowie auf Basis von Verwaltungseinheiten andererseits. Gerade dieser letzte Punkt wird jedoch von der derzeit verfügbaren Standardsoftware, die bislang für die Umsetzung des Quadtree-Verfahrens genutzt wird, nicht berücksichtigt. Für die Geheimhaltung georeferenzierter Ergebnisse der Lohn- und Einkommensteuerstatistik wird deshalb derzeit ein eigener Ansatz entwickelt, der aus einer Kombination des Quadtree-Verfahrens mit einer begrenzten Anzahl an Aggregationen und einem datenverändernden Verfahren für die restlichen bzw. zusätzlichen Geheimhaltungsfälle besteht. In einem Werkstattbericht sollen die Methodik des Ansatzes, die verwendeten Instrumente sowie erste Ergebnisse vorgestellt werden.

2:45pm - 3:10pm

Veröffentlichungspotenziale von georeferenzierten Daten der Lohn- und Einkommenssteuerstatistik am Beispiel der kleinräumigen Einkommensverteilung in Nordrhein-Westfalen

Christoph Alfken, Sören Görner

IT.NRW – Statistisches Landesamt Nordrhein-Westfalen, Deutschland

In den letzten Jahren hat die Debatte über die wachsende Einkommensungleichheit an Intensität zugenommen. Dabei wird häufig auf die Differenzen zwischen sozialen Gruppen verwiesen. Einkommensdisparitäten manifestieren sich jedoch nicht nur auf sozialer, sondern auch auf räumlicher Ebene. So konzentrieren sich Personen mit ähnlichen Einkommen in bestimmten Gebieten. Diese räumliche Segregation lässt sich auf verschiedenen Maßstabsebenen beobachten, etwa zwischen ost- und westdeutschen Bundesländern oder urbanen und ländlichen Gemeinden. Auch innerhalb von Städten und Gemeinden zeigt sich dieses Phänomen, da bestimmte Einkommensgruppen in unterschiedlichen Stadtteilen konzentriert sind. Bisher fehlen jedoch flächendeckende und einheitliche Daten, um diese räumlichen Muster detailliert zu analysieren.

Das vorliegende Projekt zielt darauf ab, amtliche Einkommensdaten auf möglichst kleinräumiger Ebene bereitzustellen. Hierfür werden georeferenzierte Daten aus der Lohn- und Einkommenssteuerstatistik verwendet und auf 1-km-Gitterzellen aggregiert. Aufgrund der sensiblen Natur dieser Daten stellte die Wahrung der Geheimhaltung bislang ein Hindernis für eine kleinräumige Veröffentlichung dar. Durch die Anwendung der Methode der Kerndichteschätzung können jedoch die gesetzlichen Anforderungen an die statistische Geheimhaltung erfüllt werden, während gleichzeitig ein hoher Informationsgehalt der Daten gewahrt bleibt, da die räumliche Struktur der Originaldaten erhalten bleibt.

Das Projekt nutzt die Daten der Lohn- und Einkommenssteuerstatistik aus dem Jahr 2020 für Nordrhein-Westfalen und berechnet die mittleren Einkommen je Gitterzelle aus den zu versteuernden Gesamteinkünften. Damit liegen erstmals amtliche Daten zur kleinräumigen Einkommensverteilung flächendeckend für ein Bundesland vor.

Eine erste Analyse für Nordrhein-Westfalen offenbart prägnante geografische Muster in der Einkommensverteilung. Neben den bekannten räumlichen Disparitäten innerhalb des Ruhrgebiets, lassen sich auch Korrelationen zwischen Einkommen und Raumnutzung feststellen. So finden sich häufig Konzentrationen niedriger Einkommen in der Nähe großer Industrie- und Gewerbegebiete oder Großinfrastrukturen während sich höhere Einkommen in weniger verdichteten Gebieten am Rand der Ballungsgebiete konzentrieren. Die Daten bieten somit das Potenzial, räumliche Einkommensdisparitäten auf kleinräumiger Ebene zu untersuchen und gezielte politische Maßnahmen zu unterstützen bzw. zu evaluieren

3:10pm - 3:35pm

'Fitness for use' von demographischen Rasterdaten mit künstlichem Messfehler

Martin Möhler

Destatis, Deutschland

In der europäischen Zensusrunde 2021/22 produzierten die Mitgliedsstaaten demographische Aggregate in kleinen geographischen Rasterzellen. In solchen Datenprodukten ist es aufgrund der hohen räumlichen Granularität schwer, die Vertraulichkeit statistischer Angaben sicherzustellen. Erschwert wird diese Aufgabe dadurch, dass Rasterzellen-Aggregate sich auch mit Aggregaten für administrative Gebiete verschneiden lassen, um Ergebnisse für noch kleinere Areale zu errechnen (sog. geographisches Differenzbildungsrisiko).

Deutschland und andere EU-Mitgliedsstaaten schützen Rasterdaten durch stochastische Überlagerung mit der sog. Cell-Key-Methode (CKM), ein Verfahren zur Sicherstellung der statistischen Geheimhaltung, das kleine zufällige Störterme verwendet, um Differenzbildungsrisiken zu begrenzen. Wir betrachten den Schutzeffekt von CKM hinsichtlich des Risikos geographischer Differenzbildung sowie die Auswirkungen der Methode auf analytische Validität („Fitness for use“) eines demographischen Rasterprodukts der Auflösung 1ha. Analytische Validität wird anhand einer exemplarischen Auswertung zur Erreichbarkeit von Apotheken untersucht.

3:35pm - 4:00pm

Regionale Auswertung von anonymisierten georeferenzierten Daten

Lorena Gril, Ulrich Rendtel

Freie Universität Berlin, Deutschland

Georeferenzierte Daten werden aus Gründen des Datenschutzes häufig anonymisiert. Dies geschieht entweder durch Aggregation zu größeren räumlichen Einheiten (wie Verwaltungseinheiten höherer Ordnung oder Gitterzellen mit größeren Kantenlängen) oder durch den Einsatz stochastischer Verfahren, die die ursprünglichen Koordinaten gezielt überlagern. Ziel einer Analyse ist es, die räumliche Verteilung eines interessierenden Merkmals zu visualisieren, zum Beispiel in Form von Karten. Herkömmliche Analysemethoden berücksichtigen oft nicht den Anonymisierungsprozess und behandeln anonymisierte Koordinaten als tatsächliche Koordinaten. Ein statistisches Messfehlermodell ermöglicht jedoch wesentlich effizientere Analysen, indem es den Einfluss der Anonymisierung explizit berücksichtigt. Ziel des Vortrags ist es, Ergebnisse zur effizienten Nutzung von anonymisierten georeferenzierten Daten zu präsentieren. Neben der Vorstellung der entwickelten Methoden werden auch empirische Ergebnisse aus einer Bevölkerungs- und Gesundheitsbefragung sowie der regionalen Verteilung der Einkommenssteuerpflichtigen in Berlin präsentiert.