Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Données COVID-19 erronées #527

Open
maxcorbeau opened this issue Apr 19, 2020 · 2 comments
Open

Données COVID-19 erronées #527

maxcorbeau opened this issue Apr 19, 2020 · 2 comments

Comments

@maxcorbeau
Copy link

maxcorbeau commented Apr 19, 2020

Tout d'abord merci pour votre contribution sur les données libre du gouvernement.

Je suis en train de jeter un oeil aux données du COVID-19 et elles me paraissent erronées a de nombreux endroits. En effet la colonne "deces" représente le "total cumulé du nombre de décès", ce qui ne peut donc pas diminuer, en revanche je compte plusieurs points de données où c'est le cas:

Par exemple:

Je constate que les données sont compilées avec NodeJS. J'ai rien contre NodeJS, mais à mon avis pour travailler avec des données il serait plus judicieux de basculer sur Python, où des librairies comme pandas peuvent faciliter grandement le travail.

Par exemple détecter ce genre d'erreurs se fait en quelques lignes:

# Loading data
# Sorting by nom+date so we can use .diff() method
# For each location (group on nom), we get diff of deaths with previous time period
# if the diff is negative, it means total deaths went down which isn't possible
# we export data to CSV and raise exception
import pandas as pd
df = pd.read_json(path+'chiffres-cles.json')
df = df.sort_values(['nom','date'])
df['diff'] = df.groupby(['nom'])['deces'].diff().fillna(0)
df_errors = df[df['diff']<0]
if not df_errors.empty:
    df_errors[cols].to_csv(path+'errors.csv',index=False)
    raise Exception('Total deaths for certain locations decreasing, not possible')

Voilà, ma modeste contribution...

@benoitdemaegdt
Copy link

Bonjour,

Je remonte le même problème pour le département "Charente".
Problème identifié sur le dashboard officiel du gouvernement : https://dashboard.covid19.data.gouv.fr/departements/16

image

Sait-on expliquer cette anomalie ?

@claustres
Copy link
Contributor

A priori j'observe les erreurs dans les données sources pour les deux cas cités https://www.data.gouv.fr/fr/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/, donc je suppose qu'elles se répercutent ici. A ma connaissance il n'y a aucun calcul d'accumulation fait par le traitement, il faut donc reporter l'erreur au niveau de Santé Publique France.

Nous avons observé ce type d'erreur également de notre côté en proposant https://github.com/kalisio/covid-19 et avons choisi de rajouter un traitement visant à combler les trous dans les données à partir des valeurs de la vieille et en conservant également les valeurs max observées concernant les cumuls pour y pallier.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants