JavaScript ist deaktiviert
Die JavaScript-Funktionalität Ihres Browsers ist deaktiviert. Um diese ConfTool-Funktion nutzen zu können, müssen Sie JavaScript aktivieren.
Hier finden Sie Informationen zur Aktivierung von JavaScript.
Bei Fragen oder Problemen wenden Sie sich bitte an das Organisationsteam unter statistische-woche@dstatg.de.

Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Veranstaltung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

Tagesübersicht

Sitzung

CSDS4: Computational Statistics and Data Science 4

Zeit:

Donnerstag, 04.09.2025:

9:00 - 10:40

Chair der Sitzung: Jan Weymeirsch, Universität Trier, Deutschland

Ort: A.00.Bibliothek

Präsentationen

9:00 - 9:25

Transformer-Modelle in der Außenhandelsstatistik: Potenziale und Herausforderungen im Vergleich mit klassischen Vektorraummodellen

Sara Schiesberg, Heiko Limberg

Statistisches Bundesamt, Deutschland

In diesem Vortrag untersuchen wir den Einsatz von Transformer-Modellen in der Außenhandelsstatistik und vergleichen sie mit klassischen Vektorraummodellen. Transformer-Modelle haben sich in vielen Bereichen der Sprachverarbeitung als leistungsstark erwiesen. Wir diskutieren sowohl die Potenziale als auch die Herausforderungen dieser Methoden für unseren Fachbereich, insbesondere hinsichtlich ihrer Fähigkeit, komplexe Zusammenhänge in Daten zu erkennen und übertragbar auf verschiedene Anwendungsfälle zu bleiben. Dabei betrachten wir sowohl theoretische Überlegungen als auch erste praktische Erfahrungen mit diesen Ansätzen. Zudem skizzieren wir erste Ergebnisse aus unseren Analysen, die Hinweise auf die Leistungsfähigkeit und Grenzen dieser Modelle in der Außenhandelsstatistik liefern.

9:25 - 9:50

Model Governance und Compliance unter den speziellen Arbeitsbedingungen im öffentlichen Sektor.

Ulrich Reincke, Frank Gramüller

SAS Institute Gmbh, Deutschland

Die Arbeitsbedingungen für Data Scientists und Statistiker im öffentlichen Sektor sind oft mit strengen regulatorischen Anforderungen und begrenzten Ressourcen verbunden. Berücksichtigt man zusätzlich die langwierigen Beschaffungswege im öffentlichen Bereich über Ausschreibungen, so scheint der Einsatz von Open Source Software wie Python und R oft im wahrsten Sinne des Wortes die „erste Wahl“ und alternativlos zu sein.

Mit dem Inkrafttreten der Europäischen Datenschutzgrundverordnung 2018 und dem AI Akt 2024 ist die Einhaltung von Governance- und Compliance-Richtlinien bei der Modellierung personenbezogener Daten verschärft worden. Diese Verschärfungen betreffen auch den öffentlichen Sektor, der im Bereich der Digitalisierung von Prozessen anderen Branchen noch hinterherhinkt.

Diese Präsentation beleuchtet diese Herausforderungen und zeigt mögliche Lösungsansätze im Bereich von Model Governance und Compliance mit der SAS-Viya Plattform. Im Vortrag wird deutlich gemacht, dass man mit der prozessübergreifenden SAS-Viya Plattform auf die Verwendung verschiedener Open Source Software wie z.B. Python und R nicht verzichten muss und bei der Einhaltung der regulativen Anforderungen unterstützt wird.

Durch praxisnahe Beispiele und Fallstudien wird gezeigt, welche Risiken und Anforderungen es gibt und wie die Integration von Open Source in der SAS Plattform eine robuste aber auch hinreichend flexible Umgebung für die Modellierung und Analyse schafft, in der die Compliance Regeln abgebildet werden können.

Besondere Aufmerksamkeit wird dabei auf die Komponenten SAS Model Manager und SAS Model Risk Managment gelegt, die sicherstellen, dass Modelle genau, zuverlässig, transparent, fair, unverzerrt, nachvollziehbar sind, und nach Daten- und Softwareversionsstand auch rückwirkend auditierbar.

Die Präsentation bietet wertvolle Einblicke und praktische Empfehlungen für Data Scientists und Statistiker, die in einem komplexen regulatorischen Umfeld arbeiten und gleichzeitig auf innovative Analysetechniken nicht verzichten möchten.

9:50 - 10:15

Datenschutzkonforme Methodik für den Zugang zu Mobilfunksignaldaten

Lorenz Ade

Statistisches Bundesamt, Deutschland

Seit 2017 erstellt das Statistische Bundesamt experimentelle Statistiken auf Basis von Mobilfunkdaten. Die in diesen Projekten verwendeten Rohdaten werden bisher in einer „methodischen Blackbox“ aufbereitet und verarbeitet, da die Mobilfunkbetreiber nur aggregierte Daten auf der Grundlage ihrer vertraulichen Algorithmen bereitstellen.

Wenn Mobilfunkdaten in die amtliche Statistikproduktion einfließen sollen, müssen die Daten die notwendigen Qualitätskriterien der Transparenz, Zugänglichkeit und Vergleichbarkeit erfüllen. Außerdem müssen die Datenschutzstandards jederzeit eingehalten werden, um das Vertrauen der Öffentlichkeit in die amtliche Statistik zu erhalten. Um diese Themen zu bearbeiten kooperieren die Mobilfunkanbieter im Rahmen des Projektes „Anonymität bei integrierten und georeferenzierten Daten (AnigeD)“ mit dem Statistischen Bundesamt.

Das Projekt zielt darauf ab, die „methodische Blackbox“ der Mobilfunksignaldatenverarbeitung mit der Implementierung eines Verarbeitungs- und Anonymisierungsverfahrens zu öffnen. Hierzu gehören auch Anonymisierungsverfahren für die Nutzung von anonymisierten georeferenzierten Mobilfunkdaten, die Konzeption und der Aufbau der erforderlichen Entwicklungsumgebung beim Datenprovider, die Entwicklung eines Modellprozesses für die zukünftige Zusammenarbeit zwischen privaten (Mobilfunk-)Datenanbietern und dem Statistischen Bundesamt und ggf. weiteren staatlichen Institutionen.

Vorgestellt werden die aktuelle Projektergebnisse. Dies sind insbesondere die besonderen Datenschutzaspekte der Mobilfunksignaldaten und mögliche Anonymisierungsverfahren, als auch die technischen Herausforderungen bei der Verarbeitung sehr großer Datenmengen.

10:15 - 10:40

Erstellung eines flächendeckenden Wohnraumregisters für dynamische Mikrosimulationen in Deutschland

Jan Weymeirsch, Ralf Münnich

Universität Trier, Deutschland

Räumlich-dynamische Mikrosimulationen haben ein besonderes Potenzial, Bevölkerungen auf einer sehr detaillierten geografischen Ebene, wie Stadtteilen, Häuserblöcke oder Adressen zu simulieren. Hierfür wird typischerweise ein detaillierter Gebäude-~und Wohnungsdatensatz benötigt, um feingliedrige Wanderungsströme modellieren zu können, insbesondere in Hinsicht auf den sich sehr dynamisch entwickelnden Wohnungsmarkt und lokale Wohnraumkapazitäten. Es gibt jedoch zum aktuellen Zeitpunkt kein umfassendes Gebäuderegister für Deutschland, welches den Ansprüchen für die geplante Nutzung genügt, insbesondere keines, welches für die Forschungsgemeinschaft offen zugänglich ist und Gebäude hinsichtlich ihrer Nutzung als Wohnraum oder als potenzielle Arbeitsstätte unterscheidet.

In einer ersten Pilotstudie haben wir bereits Möglichkeiten evaluiert, öffentlich zugängliche Daten, insbesondere OpenStreetMap (OSM) und lokal verfügbare amtliche Daten als Grundlage für den Aufbau eines solchen Datensatzes in einer deutschen Großstadt zu nutzen. Aufbauend aus den daraus gezogenen Schlussfolgerungen, möchten wir unseren Ansatz nun flächendeckend auf ganz Deutschland ausweiten. Hierbei nutzen wir modellbasierte Ansätze sowie Machine Learning Methoden, um amtliche Daten mit öffentlichen Datenquellen wie beispielsweise OSM zu verknüpfen und Gebäude nach Ihrer Nutzung und Ihrem Wohnraum zu klassifizieren. Der sich hieraus ergebende Datensatz soll der wissenschaftlichen Gemeinschaft frei zur Verfügung gestellt werden und auch für feingliedrige räumliche Mikrosimulationen verwendet werden können.

Dieser Beitrag stellt die von uns verfolgten Strategien, Methoden sowie erste Ergebnisse in Teilbereichen von Deutschland vor.

Statistische Woche 2025

2.-5. September 2025
Wiesbaden, Deutschland

Veranstaltungsprogramm