Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Add preprocessing for missing values #36

Open
pmayd opened this issue Nov 14, 2023 · 5 comments
Open

Add preprocessing for missing values #36

pmayd opened this issue Nov 14, 2023 · 5 comments
Assignees
Labels
development internal issues for the dev team documentation Improvements or additions to documentation

Comments

@pmayd
Copy link
Collaborator

pmayd commented Nov 14, 2023

No description provided.

@pmayd
Copy link
Collaborator Author

pmayd commented Dec 12, 2023

In dieser Tabelle tauchen alle Fälle auf: 12211-0001

@jkrause123
Copy link
Collaborator

jkrause123 commented Dec 12, 2023

@jkrause123
Copy link
Collaborator

  • abklären, ob wir die Zeichen richtig verstanden haben, mit Beispielen
  • Qualitätsmerkmale mitbehandeln

@pmayd
Copy link
Collaborator Author

pmayd commented Dec 12, 2023

"Für den Tabellen-Download in den Formaten XLSX, CSV und FLAT kann die Ausgabe der Qualitätskennzeichen ( ), p, r, s und e durch Anklicken des Buttons Q unter Optionen aktiviert werden."

That means that these quality values are not visible by default in our FLAT CSV. But it is unclear how we can get the data from the API because there is no parameter. @jkrause123 could you ask in your email what parameter to choose to get this from the API or if this is not possible in ffcsv?

@jkrause123
Copy link
Collaborator

jkrause123 commented Jan 31, 2024

Für GENESIS-Online und die Regionaldatenbank gelten die gleichen Zeichenerklärungen. Zu den einzelnen Annahmen:
– Null: Das Abrunden wurde richtig beschrieben. Ob Nachkommastellen veröffentlicht werden oder ganze (gerundete) Zahlen ist keine technische Frage, sondern hängt von der Veröffentlichungspraxis in der jeweiligen Statistik ab.
– Strich: Hier gibt es im Gegensatz zur Null tatsächlich nichts zu zählen.
– Punkt: Bedingt durch die Geheimhaltungsmethodik einzelner Statistiken liegt kein Wert zur Veröffentlichung vor.
– Drei Punkte: Korrekt, der Wert wird später veröffentlicht.
– X: Manche Merkmalskombinationen führen teilweise zu nicht sinnvollen Aussagen. Wenn beispielsweise Alter und Familienstand kombiniert werden, würde bei den "unter 1-Jährigen Verwitweten" ein "x" stehen.
– Schrägstrich und Klammer: Ab wann ein Wert so unsicher ist, dass er nicht mehr durch eine Klammer eingeschränkt, sondern durch einen Schrägstrich ersetzt werden muss, hängt von der Veröffentlichungspraxis in der jeweiligen Statistik ab.
Um einen Zugang zu den kommenden Zensusdaten vorzubereiten möchten wir Ihnen jedoch die Zensusdatenbank empfehlen. Dort sind bereits die Ergebnisse des Zensus 2011 veröffentlicht und dort werden auch die Ergebnisse des Zensus 2022 in vollem Umfang veröffentlicht. Die Zensusdatenbank ist speziell auf die Auswertung der Zensusdaten zugeschnitten, dort gibt es wesentlich weniger Qualitätskennzeichen und es gelten bedingt durch die genutzte Geheimhaltungsmethode abweichende Beschreibungen einzelner Zeichen:
https://ergebnisse2011.zensus2022.de/datenbank/online?operation=ergebnistabelleMethode&name_STAT=3000G
https://ergebnisse2011.zensus2022.de/datenbank/online?operation=ergebnistabelleMethode&name_STAT=2000S
In allen drei GENESIS-basierten Datenbanken können Sie mit dem API-Parameter quality=on die Ausgabe der Qualitätskennzeichen über die RESTful/JSON-Schnittstelle anfordern. Bitte beachten Sie auch hier die kompaktere API-Dokumentation der Zensusdatenbank:
https://ergebnisse2011.zensus2022.de/datenbank/misc/ZENSUS-Webservices_Einfuehrung.pdf
In Kürze werden sich in der Zensusdatenbank die Struktur und die Ausgabe des ffcsv-Format (zukünftig als zip-Archiv) ändern. Diese Änderungen werden dann sukzessive auf GENESIS-Online und in der Regionaldatenbank ausgerollt. Dezimaltrennzeichen werden dabei weiterhin sprachabhängig ausgegeben.

@pmayd pmayd added development internal issues for the dev team documentation Improvements or additions to documentation labels Feb 20, 2024
@MarcoHuebner MarcoHuebner self-assigned this Apr 30, 2024
MarcoHuebner added a commit that referenced this issue Jun 2, 2024
MarcoHuebner added a commit that referenced this issue Jun 2, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
development internal issues for the dev team documentation Improvements or additions to documentation
Projects
None yet
Development

No branches or pull requests

3 participants