-
Notifications
You must be signed in to change notification settings - Fork 0
/
odu.Rmd
189 lines (111 loc) · 5.83 KB
/
odu.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
---
title: "L'open data, c'est quoi ?"
subtitle: "Open Data University saison 2"
author: "Clément Mandron, Datactivist"
date: "12 mars 2024"
output:
SlidesDatactivist::moon_reader:
css: [default, datactivist, datactivist-fonts]
lib_dir: libs
nature:
highlightStyle: github
highlightLines: true
countIncrementalSlides: false
params:
event: Open Data Univerisy Saison 2
slug: opendatauniversity
---
layout: true
`r paste0("<div class='my-footer'><span>", params$event, "</span> <center><div class=logo><img src='https://github.com/datactivist/slides_datactivist/raw/master/inst/rmarkdown/templates/xaringan/resources/img/fond_noir_monochrome.png' width='100px'></center></span></div>")`
---
class: center, middle
Ces slides en ligne : `r paste0("http://datactivist.coop/", params$slug)`
Sources : `r paste0("https://github.com/datactivist/", params$slug)`
Les productions de Datactivist sont librement réutilisables selon les termes de la licence [Creative Commons 4.0 BY-SA](https://creativecommons.org/licenses/by-sa/4.0/legalcode.fr).
<BR>
<BR>
![](https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-sa.png)
---
<img src='https://github.com/datactivist/slides_datactivist/raw/master/inst/rmarkdown/templates/xaringan/resources/img/logo.png' width='320px'>
### We .red[open data], we make them .red[useful]
![](./img/equipe.png)
---
class: inverse, center, middle
# L'open data, c'est quoi ?
---
## Open data : définition
Selon Wikipedia, une donnée ouverte c'est :
> une donnée numérique, d'origine publique ou privée, publiée de manière structurée selon une méthodologie qui garantit son libre accès et sa réutilisation par tous, sans restriction.
**L'ouverture des données est à la fois un mouvement, une philosophie d'accès à l'information et une pratique de publication de données** librement accessibles et exploitables.
---
## Des données ouvertes, pour être réutilisées
.pull-left[
![](./img/dgf.png)
]
.pull-right[
![](./img/covid.png)]
---
## .red[Les 8 principes] de l'open data
1/ **Des données complètes** : toutes les données publiques doivent être rendues disponibles dans les limites légales liées à la vie privée ou la sécurité.
2/ **Des données primaires** : les données ouvertes sont telles que collectées à la source, non-agrégées avec le plus haut niveau de granularité
3/ **Des données fraiches (*timely*)** : les données doivent être disponibles dès qu'elles sont produites
4/ **Des données accessibles** : les données doivent être utilisables par le plus grand nombre d’usagers potentiels
---
## .red[Les 8 principes] de l'open data
5/ **Des données exploitables par les machines** : Les données peuvent être traitées automatiquement par les machines
6/ **Des données non discriminatoires** : Elles peuvent être utilisées par tous sans réclamer un enregistrement préalable
7/ **Des données dans un format ouvert** : Ce format ne doit pas être la propriété d'une organisation en particulier (.xls) et doit être gouverné par ses usagers (exemple : CSV)
8/ **Des données dans une licence ouverte** : Idéalement dans le domaine public sinon dans une licence conforme à l'[Open Definition](https://opendefinition.org/od/2.1/en/) : Licence Ouverte (CC-BY) ou ODBL (CC-BY-SA)
---
### Loi pour une République Numérique : l'ouverture des données par défaut
.pull-left[
La [loi pour une République Numérique](https://www.legifrance.gouv.fr/affichTexte.do;jsessionid=B5632993E54F7CCC2606664B64CDF612.tpdila11v_1?cidTexte=JORFTEXT000033202746&categorieLien=id) impose un principe d'.red[**ouverture des données par principe**] qui ne fait pas l'objet de sanctions à toutes les administrations, les entreprises délégataires d'une mission de service public et les .red[**collectivités locales de plus de 3500 habitants et 50 agents**].
]
.pull-right[
![](./img/lrn.png)
]
---
class: inverse, center, middle
# Trois choses qui n'existeraient pas sans l'open data
---
## 1. Yuka
.pull-left[
- 25 millions d'utilisateurs
- 35 scans de produits par seconde
- Top 50 des applis gratuites sur l'Appstore et le Playstore
- 2 million € de CA en [2022](https://www.pappers.fr/entreprise/yuca-817769466)
]
.pull-right[
![](./img/logo_yuka.png)
]
???
Trois sources de revenus (wikipedia) :
- fremium (70%). exemple accès hors ligne
- vente calendrier produit de saison (20%)
- vente d'un programme nutrition (10%)
En 2017, Yuka s'appuyait exclusivement sur Open Food Facts
À partir de janvier 2018, une base de données propriétaire est mise en place pour ajouter un système de contrôle et de vérification des contributions
La base de données de Yuka continue à être alimentée par les contributions des utilisateurs à travers l’application. De plus, les industriels partagent aussi les informations de leurs produits14, grâce à la plate-forme Alkemics
Reste premier contributeur d'OFF
---
[.center[![](./img/off.png)]](https://fr.openfoodfacts.org/decouvrir)
???
Derrière OFF, une association commun numérique, gouvernance partagée, données en ODBL
---
## 2. Les applis de mobilité
.center[.reduite[![](./img/CityMapper.png)]]
---
## 2. Les applis de mobilité
.center[.reduite[![](./img/stan.png)]]
---
## 3. ChatGPT
![](./img/sandwich.png)
???
Sans CommonCrawl = les données d'entrainement dans les mains d'un nombre réduit de personnes
ChatGPT et les autres LLM sont entraînés sur des données ouvertes. Par exemple Wikipedia. Mais aussi CommonCrawl
CommonCrawl : biais, souvent des versions mal-filtrées sont utilisées
Popular Common Crawl versions is often limited to removing pornography and relies on simple keyword lists or AI classifiers trained on user generated content that can itself be problematic
---
class: inverse, center, middle
# Merci !
Contact : [clement@datactivist.coop](mailto:clement@datactivist.coop)