Traitez-vous de gros volumes de données? Vos données contiennent-elles des informations hiérarchiques (par exemple, plusieurs avis pour un seul produit)? Ensuite, vous devez utiliser JSON comme format de données de référence au lieu de CSV.
Nous proposons des vues CSV lors du téléchargement de données à partir de Datafiniti pour des raisons de commodité, mais nous encourageons toujours les utilisateurs à utiliser les vues JSON. Découvrez ces raisons pour voir comment votre pipeline de données peut bénéficier du changement.
JSON montre mieux les données hiérarchiques / relationnelles
Considérons un seul enregistrement métier dans Datafiniti. Voici une ventilation des champs que vous pourriez voir
- Nom de l’entreprise
- Adresse de l’entreprise
- Une liste de catégories
- Une liste d’avis (chacun avec une date, un utilisateur, une note, un titre, un texte et une source)
Considérons maintenant une liste de ces enregistrements de produits. Chaque produit aura un nombre différent de prix et d’avis.
Voici à quoi ressembleraient certains exemples de données en CSV (lien Datafiniti):
Et voici les mêmes données en JSON (lien Datafiniti):
La vue JSON semble tellement meilleure, non?
CSV perdra des données
Si vous regardez de près les données CSV ci-dessus, vous remarquerez que nous avons un nombre défini de prix et d’avis pour chaque produit. C’est parce que nous sommes obligés de faire une coupure pour le nombre de prix et d’avis que nous montrons. Si nous ne le faisions pas, chaque ligne aurait un nombre différent de colonnes, ce qui rendrait presque impossible l’analyse des données. Malheureusement, de nombreux produits ont des dizaines, voire des centaines de prix et de critiques. Cela signifie que vous finissez par perdre beaucoup de données précieuses en utilisant la vue CSV.
L’application de lecteur CSV standard (Excel) est terrible
Excel est idéal pour charger de petits fichiers de feuille de calcul hautement structurés. C’est terrible de charger des fichiers qui peuvent avoir 10 000 lignes, plus de 100 colonnes, certaines de ces colonnes étant remplies de texte non structuré comme des critiques ou des descriptions. Il s’avère qu’Excel ne suit pas les normes de formatage CSV, donc même si nous encodons correctement tous les caractères, Excel ne sait pas comment lire cela. Il en résulte que certains champs se déversent dans des colonnes adjacentes, ce qui rend les données illisibles.
JSON est plus facile à utiliser à l’échelle
Sans aucun doute, JSON est le choix de facto lorsque vous travaillez avec des données à l’échelle. La plupart des API modernes sont RESTful et prennent donc en charge nativement les entrées et sorties JSON. Plusieurs technologies de base de données (y compris la plupart des variantes NoSQL) le prennent en charge. Il est également beaucoup plus facile de travailler avec la plupart des langages de programmation. Jetez simplement un coup d’œil à ce code PHP simple pour travailler avec du JSON de Datafiniti:
Pour en savoir plus
Consultez ces liens utiles pour vous familiariser avec JSON:
- Les bases de JSON
- Mise en route avec JSON