Comment charger des exemples densembles de données en Python

Comment charger des exemples densembles de données en Python

Dans cet article, nous allons voir comment charger des exemples d'ensembles de données en Python. Cela peut ne pas sembler être le sujet le plus glamour, mais c'est en fait assez important. Idéalement, vous aurez des ensembles de données en Python sur lesquels vous pourrez vous exercer lorsque vous apprendrez de nouveaux concepts. Vous pouvez regarder la vidéo complète de ce tutoriel au bas de ce blog.

Si vous avez l'intention de partager votre code , de documenter ce que vous avez fait ou d'avoir besoin d'aide , c'est vraiment une bonne idée d'utiliser un ensemble de données généralement disponible pour créer quelque chose que l'on appelle un exemple minimalement reproductible .

Vous allez avoir un code ou un script pré-groupé que quelqu'un d'autre sur Internet peut exécuter et vous aider. Si vous ne produisez pas ces exemples minimalement reproductibles , vous vous retrouvez dans des endroits comme Stack Overflow, ce qui peut être un peu choquant si vous ne le connaissez pas.

Comment charger des exemples d'ensembles de données en Python

Examinons quelques façons de créer ces exemples peu reproductibles et d'obtenir les ensembles de données. Il existe quelques packages que vous pouvez utiliser pour charger un ensemble de données prédéfini dans Python et partager ce code.

Nous allons examiner trois packages qui sont les plus courants. Allumons un cahier Jupyter vierge et commençons.

Comment charger des exemples d'ensembles de données en Python

Table des matières

Charger des ensembles de données en Python à partir de Sklearn

Le premier que nous allons examiner s'appelle Sklearn . Si vous utilisez Anaconda, vous n'aurez pas besoin de le télécharger. Si vous souhaitez plus d'aide avec Python, LuckyTemplates propose un auquel vous pouvez vous inscrire.

Je vais supposer que vous connaissez déjà des choses comme les packages, et partir de là. Nous allons apporter des pandas et Sklearn, en particulier le sous-module de jeu de données.

Comment charger des exemples d'ensembles de données en Python

Nous allons apporter quelques-uns de ces ensembles de données. Scikit-learn – une bibliothèque de données d'apprentissage automatique – les appelle des ensembles de données de jouets. Nous allons charger Boston, qui est un ensemble de données sur les prix des logements. Lorsque nous apportons cela, nous devons l'avoir comme cadre de données.

Nous devons en fait spécifier que les données et les colonnes proviennent de l'ensemble de données Scikit-learn, et séparer les variables de fonctionnalité et les variables cibles.

Comment charger des exemples d'ensembles de données en Python

Nous allons l'intégrer dans une trame de données afin que nous puissions opérer et faire différentes choses avec. Panda est un excellent package à connaître en tant qu'utilisateur de LuckyTemplates.

Charger des ensembles de données en Python à partir d'ensembles de données Vega

Une autre option que nous pouvons apprendre est le package d'ensembles de données Vega. Celui-ci n'est pas disponible sur Anaconda mais nous pouvons l'installer via PIP. C'est ce que nous allons taper sur la ligne de commande pour installer les jeux de données Vega et pour installer ou importer le module de données local.

Comment charger des exemples d'ensembles de données en Python

Vous pouvez en obtenir certains, mais vous aurez besoin d'une connexion Web. Nous apporterons ceux qui sont installés localement en important des données locales et en les exécutant.

Comment charger des exemples d'ensembles de données en Python

Comme vous pouvez le constater, il existe de nombreux ensembles de données. Certaines d'entre elles sont des séries chronologiques, tandis que d'autres comportent des variables catégorielles ou continues. Choisissons le jeu de données cars dans un bloc de données afin de pouvoir exécuter la méthode head dessus.

Comment charger des exemples d'ensembles de données en Python

Maintenant, nous avons un autre exemple d'ensemble de données que nous pouvons utiliser et partager.

Comment charger des exemples d'ensembles de données en Python

Charger des ensembles de données en Python depuis Seaborn

Seaborn est un autre package disponible dans la distribution Anaconda. Par défaut, Seaborn est surtout connu pour la visualisation de données, mais il propose également d'excellents exemples d'ensembles de données que vous pouvez utiliser. C'est ce que nous allons taper pour obtenir des ensembles de données.

Comment charger des exemples d'ensembles de données en Python

Comme vous pouvez le voir, il y a pas mal de jeux de données ici. Nous allons continuer et utiliser l'ensemble de données sur les pingouins et obtenir à nouveau les premières lignes.

Comment charger des exemples d'ensembles de données en Python

Le résultat est un autre ensemble de données sur lequel nous pouvons nous entraîner.

Comment charger des exemples d'ensembles de données en Python

L'idée ici n'est pas seulement d'avoir les ensembles de données sur lesquels s'exercer. Si nous voyons des valeurs manquantes, si nous avons du mal à supprimer des ensembles de données, si nous voulons remplir la variable catégorielle ou montrer un exemple à d'autres personnes sans donner de données sensibles, vous pouvez simplement utiliser l'un de ces ensembles de données accessibles au public qui sont vraiment, vraiment facile pour que les gens l'utilisent et le partagent. C'est l'idée d'un exemple minimalement reproductible.

LuckyTemplates avec Python Scripting pour créer des tableaux de dates
Python dans LuckyTemplates : Comment installer et configurer
Python I pour les utilisateurs de LuckyTemplates - Nouveau cours sur la plateforme de formation LuckyTemplates

Conclusion

Pour récapituler, il existe trois endroits où rechercher des exemples d'ensembles de données. Scikit-learn est un package d'apprentissage automatique. C'est un peu plus difficile à convertir, mais si vous faites des choses liées à l'apprentissage automatique, c'est l'endroit où aller. Les ensembles de données Vega ont également un assez bon nombre d'ensembles de données, spécialement si vous utilisez la méthode pour obtenir des ensembles de données à partir du Web, mais il est relativement plus difficile à charger, il vous suffit donc d'utiliser PIP plutôt que de l'avoir pré-installé avec Anaconda. Seaborn est le point idéal car il charge le bloc de données et il est très polyvalent lorsqu'il s'agit d'utiliser des exemples d'ensembles de données et des exemples reproductibles.

Stack Overflow propose également un tutoriel sur la façon d'écrire un bon exemple peu reproductible ou MRE, alors vérifiez-le si vous cherchez à publier quelque chose en ligne.

Savoir où obtenir de bons ensembles de données et partager un bon MRE est une compétence très importante à avoir en tant qu'analyste.

Si vous avez apprécié le contenu couvert dans ce didacticiel particulier, veuillez vous abonner à la chaîne de télévision LuckyTemplates. Nous avons une énorme quantité de contenu qui sort tout le temps de moi-même et d'une gamme de créateurs de contenu - tous dédiés à l'amélioration de la façon dont vous utilisez LuckyTemplates et Power Platform.


Gestion des erreurs dans Power Automate via le branchement parallèle

Gestion des erreurs dans Power Automate via le branchement parallèle

Découvrez l

Comparaison de tables dans Power Query | Tutoriel LuckyTemplates

Comparaison de tables dans Power Query | Tutoriel LuckyTemplates

Découvrez comment comparer facilement des tables dans Power Query pour signaler les différences et optimiser vos analyses de données.

Colonne fractionnée LuckyTemplates par délimiteurs dans DAX

Colonne fractionnée LuckyTemplates par délimiteurs dans DAX

Dans ce blog, vous découvrirez comment diviser les colonnes dans LuckyTemplates par délimiteurs à l'aide de DAX, une méthode efficace pour gérer des modèles de données complexes.

SELECTEDVALUE DAX Exemple - Sélection de trancheuse de récolte

SELECTEDVALUE DAX Exemple - Sélection de trancheuse de récolte

Découvrez comment récolter une valeur avec SELECTEDVALUE DAX pour des calculs dynamiques dans LuckyTemplates.

Calculer la marge en pourcentage dans LuckyTemplates à laide de DAX

Calculer la marge en pourcentage dans LuckyTemplates à laide de DAX

Calculez la marge en pourcentage à l

Modifier les formats de date à laide de léditeur Power Query

Modifier les formats de date à laide de léditeur Power Query

Dans ce didacticiel, nous allons explorer une méthode rapide pour convertir du texte en formats de date à l

Enregistrer la pièce jointe dun e-mail sur SharePoint avec Power Automate

Enregistrer la pièce jointe dun e-mail sur SharePoint avec Power Automate

Dans ce blog, vous apprendrez à enregistrer automatiquement la pièce jointe d

Comment adapter les cellules Excel au texte : 4 solutions simples

Comment adapter les cellules Excel au texte : 4 solutions simples

Découvrez comment adapter les cellules Excel au texte avec ces 4 solutions simples pour améliorer la présentation de vos données.

Générateur de rapports SSRS : formater les en-têtes dans un rapport paginé

Générateur de rapports SSRS : formater les en-têtes dans un rapport paginé

Dans ce didacticiel SSRS Report Builder, découvrez comment utiliser le générateur d

Thème de couleur dans les rapports LuckyTemplates - Conseils et techniques

Thème de couleur dans les rapports LuckyTemplates - Conseils et techniques

Découvrez les outils pour créer un thème de couleur efficace pour vos rapports LuckyTemplates et améliorer leur apparence.