Jeu de données Python : appliquer des codes répétables

Jeu de données Python : appliquer des codes répétables

Dans ce blog, vous apprendrez à appliquer des codes ou des fonctions reproductibles aux ensembles de données Python pour produire le même type de sortie. Cela vous aidera à être plus efficace et à déployer moins d'efforts pour extraire certaines données de différents ensembles de données. Dans ce didacticiel, nous allons utiliser un code existant que j'ai précédemment créé à titre d'exemple.

Vous apprendrez également à faire des copies d'ensembles de données pour éviter d'endommager la version d'origine de l'ensemble de données, à importer des bibliothèques et des fonctions à l'aide de codes reproductibles et à créer une visualisation dans LuckyTemplates .

Pour ce blog, je vous recommande d'obtenir le fichier CSV tout le temps et de l'apporter à LuckyTemplates. Je vais également montrer comment nous pouvons importer ce fichier CSV et le placer directement dans LuckyTemplates, juste au cas où vous auriez à le faire.

Table des matières

Récupération d'un fichier CSV dans LuckyTemplates

Pour importer un fichier CSV dans LuckyTemplates, la première chose que vous devez faire est de cliquer sur le menu " Obtenir des données " dans le ruban Accueil .

Jeu de données Python : appliquer des codes répétables

Après avoir cliqué, un menu déroulant apparaîtra et vous devrez sélectionner l'option « Texte/CSV » dans le menu.

Jeu de données Python : appliquer des codes répétables

Une fois que vous avez sélectionné l'option " Texte/CSV ", une fenêtre s'ouvrira où nous pourrons sélectionner le fichier que nous voulons importer dans LuckyTemplates. Pour cet exemple, utilisons le fichier IMDB Dataset

Jeu de données Python : appliquer des codes répétables

Lors de l'ouverture du fichier IMDB Dataset.csv , vous verrez une autre fenêtre qui affiche les données à l'intérieur de ce fichier. Étant donné que ce fichier contient une grande quantité de données, il ne prévisualise qu'une partie des données.

La première chose que nous allons faire dans ce fichier est de le transformer. Pour ce faire, cliquez simplement sur l'option " Transformer les données " en bas à droite de la fenêtre.

Jeu de données Python : appliquer des codes répétables

Faire une copie de l'ensemble de données Python

Avant d'apporter des modifications à cet ensemble de données, il est important de faire une copie de l'ensemble de données d'origine. Pour ce faire, faites un clic droit sur le jeu de données. 

Jeu de données Python : appliquer des codes répétables

Puis dans le menu, sélectionnez « Copier ».

Jeu de données Python : appliquer des codes répétables

Enfin, faites un clic droit sur le panneau Requêtes puis sélectionnez « Coller » dans les options.

Jeu de données Python : appliquer des codes répétables

Après avoir appliqué ces étapes, vous devriez avoir une copie de l' ensemble de données IMDB d'origine dans le panneau Requêtes .

Jeu de données Python : appliquer des codes répétables

Transformer un jeu de données en exécutant un script Python

En transformant un fichier CSV, vous pourrez diviser de grandes quantités d'ensembles de données Python en plus petits. Nous pouvons le faire en appliquant un script Python dans ce fichier.

Mais d'abord, nous devons nous assurer que les en-têtes sont correctement alignés. Cliquez sur le menu Accueil , puis recherchez l'option " Utiliser la première ligne comme en-têtes " et cliquez dessus.

Jeu de données Python : appliquer des codes répétables

Après avoir cliqué sur l'option " Utiliser la première ligne comme en-têtes ", les en-têtes sont désormais remplacés par les données des premières lignes précédentes, à savoir " examen " et " sentiment ".

Jeu de données Python : appliquer des codes répétables

Ensuite, allez dans le menu Transformer et cliquez sur l'option « Exécuter le script Python » dans le groupe d'options « Scripts ».

Jeu de données Python : appliquer des codes répétables

Après cela, une fenêtre " Exécuter le script Python " apparaîtra. Dans cette fenêtre, vous pouvez exécuter n'importe quel script Python de votre choix afin de transformer le fichier actuel que vous utilisez. Pour cet exemple, je vais réduire la taille de l'ensemble de données en exécutant le code suivant.

Jeu de données Python : appliquer des codes répétables

J'ai utilisé la fonction .iloc sur l'ensemble de données pour sélectionner les lignes et les colonnes spécifiques de l'ensemble de données IMDB. Ensuite, dans les paramètres, j'ai sélectionné les 500 premières lignes et toutes les colonnes du jeu de données IMDB. Je l'ai stocké dans une variable nommée " dataset ".

Après avoir exécuté le script, nous devrions voir le "dataset" qui est la variable que nous avons créée à l'étape précédente. Il contient les données que nous avons modifiées à l'aide du script Python.

Jeu de données Python : appliquer des codes répétables

Vérification de l'ensemble de données

Pour ouvrir le tableau de l'ensemble de données , cliquez simplement sur « Tableau » sous la colonne Valeur .

Jeu de données Python : appliquer des codes répétables

Nous pouvons voir que cet ensemble de données est maintenant réduit à 500 lignes .

Jeu de données Python : appliquer des codes répétables

Maintenant que nous avons décomposé notre jeu de données Python en 500 lignes, la prochaine chose que nous allons faire est d'importer les bibliothèques dont nous avons besoin. Nous le ferons en utilisant la même procédure que nous avons utilisée pour modifier le contenu de l'ensemble de données IMDB. Il s'agit de s'assurer que notre code peut être gérable dans certains scénarios avec moins de modifications.

Importation de bibliothèques et de fonctions à l'aide de codes répétables

Pour importer les bibliothèques, revenons à notre cahier et copions les bibliothèques dont nous avons besoin. Gardez à l'esprit qu'avant ce didacticiel, j'ai déjà créé ces bibliothèques que nous sommes sur le point de copier. Je les réutilise simplement pour que vous ayez une idée claire de l'utilisation des fonctions en tant que codes répétables.

Jeu de données Python : appliquer des codes répétables

Une fois les bibliothèques copiées, collez-les dans la fenêtre « Run Python Script », et n'oubliez pas d'inclure la ligne « from collections import Counter » à la fin du script. 

Jeu de données Python : appliquer des codes répétables

Ensuite, nous copierons la fonction de nettoyage des données de notre bloc-notes et l'ajouterons au script Python dans LuckyTemplates.

Jeu de données Python : appliquer des codes répétables

Nous l'ajouterons sous les bibliothèques. 

Jeu de données Python : appliquer des codes répétables

Nous allons également copier le code pour appeler la fonction que nous venons d'ajouter.

Jeu de données Python : appliquer des codes répétables

Collez-le ensuite dans le script Python dans LuckyTemplates.

Jeu de données Python : appliquer des codes répétables

Génération de tableaux de données

Maintenant que nous avons ajouté le code pour appeler la fonction de nettoyage des données , nous devons changer « df2 » en « dataset » et le « title » en « review ». Nous l'avons fait en raison des modifications que nous avons apportées à l'ensemble de données.

Nous avons changé « df2 » en « ensemble de données » car nous avons stocké les données avec 500 lignes dans « ensemble de données ». Ensuite, pour "titre", nous l'avons mis à jour en "révision" suite à la modification des en-têtes des colonnes.

Avec ces codes ajoutés, nous devrions être en mesure d'obtenir ou de générer 3 tables qui sont data1 pour la fréquence des mots, data2 pour la fréquence des bigrammes et data3 pour la fréquence des trigrammes.

Jeu de données Python : appliquer des codes répétables

Vous pouvez également faire une autre copie de cet ensemble de données IMDB modifié (2) pour ouvrir une autre table ultérieurement.

Jeu de données Python : appliquer des codes répétables

Maintenant, dans IMDB Dataset (2) , ouvrons la table data1

Jeu de données Python : appliquer des codes répétables

 Une fois la table data1 ouverte, on peut voir la liste des mots ainsi que la fréquence.

Jeu de données Python : appliquer des codes répétables

Comme vous pouvez le constater, nous sommes en mesure d'effectuer certaines procédures à partir de l'ensemble de données principal en utilisant des codes répétables que nous avons extraits du bloc-notes Jupyter. Avec ces codes répétables, nous sommes en mesure de transformer un ensemble de données Python et de générer un tableau pour la fréquence des mots, la fréquence des bigrammes et la fréquence des trigrammes sans avoir à retaper les codes .

Dans IMDB Dataset (3) , ouvrons la table data2 pour voir la fréquence des bigrammes.

Jeu de données Python : appliquer des codes répétables

Dans le tableau des fréquences bigrammes, vous pouvez voir le « br » inclus dans la liste. Ceci est probablement lié à un code HTML. Nous pouvons simplement revenir en arrière et ajouter autre chose, mais nous n'allons pas le faire dans ce didacticiel.

Maintenant que les données ont été chargées à l'aide des codes répétables, nous pouvons commencer à en faire des visualisations dans LuckyTemplates. Par exemple, un graphique à barres pour la fréquence de chaque mot. 

Jeu de données Python : appliquer des codes répétables


Fonctions Python définies par l'utilisateur | Présentation
de la liste Python et des boucles For dans LuckyTemplates
Utilisation de Python dans LuckyTemplates | Ensemble de données et fonction de chaîne

Conclusion

En résumé, les codes répétables peuvent vous aider à effectuer certaines procédures sur un ensemble de données avec moins d'effort. Vous avez appris à utiliser des codes reproductibles pour transformer un jeu de données Python dans LuckyTemplates. Vous avez également pu utiliser la fonction .iloc pour spécifier les lignes et les colonnes à sélectionner lors de la modification d'un ensemble de données.

En outre, vous avez créé des copies d'ensembles de données et créé une visualisation à l'aide d'un graphique à barres. Cette visualisation est basée sur les ensembles de données Python que nous avons créés et modifiés à l'aide de codes reproductibles.

Tous mes vœux,

Gaellim


Quest-ce que le self en Python ? Exemples concrets

Quest-ce que le self en Python ? Exemples concrets

Qu'est-ce que le self en Python ? Exemples concrets

Comment enregistrer et charger un fichier RDS dans R

Comment enregistrer et charger un fichier RDS dans R

Vous apprendrez à enregistrer et à charger des objets à partir d'un fichier .rds dans R. Ce blog expliquera également comment importer des objets de R vers LuckyTemplates.

First N Business Days Revisited - Une solution de langage de codage DAX

First N Business Days Revisited - Une solution de langage de codage DAX

Dans ce didacticiel sur le langage de codage DAX, découvrez comment utiliser la fonction GENERATE et comment modifier dynamiquement le titre d'une mesure.

Présentez des informations à laide de la technique des visuels dynamiques multi-threads dans LuckyTemplates

Présentez des informations à laide de la technique des visuels dynamiques multi-threads dans LuckyTemplates

Ce didacticiel explique comment utiliser la technique Multi Threaded Dynamic Visuals pour créer des informations à partir de visualisations de données dynamiques dans vos rapports.

Introduction au filtrage du contexte dans LuckyTemplates

Introduction au filtrage du contexte dans LuckyTemplates

Dans cet article, je vais parcourir le contexte du filtre. Le contexte de filtrage est l'un des principaux sujets que tout utilisateur de LuckyTemplates doit d'abord connaître.

Meilleurs conseils pour utiliser les applications dans le service en ligne LuckyTemplates

Meilleurs conseils pour utiliser les applications dans le service en ligne LuckyTemplates

Je souhaite montrer comment le service en ligne LuckyTemplates Apps peut aider à gérer différents rapports et informations générés à partir de diverses sources.

Analyser les changements de marge bénéficiaire au fil du temps - Analytics avec LuckyTemplates et DAX

Analyser les changements de marge bénéficiaire au fil du temps - Analytics avec LuckyTemplates et DAX

Découvrez comment calculer les modifications de votre marge bénéficiaire à l'aide de techniques telles que la création de branches de mesure et la combinaison de formules DAX dans LuckyTemplates.

Idées de matérialisation pour les caches de données dans DAX Studio

Idées de matérialisation pour les caches de données dans DAX Studio

Ce didacticiel abordera les idées de matérialisation des caches de données et comment elles affectent les performances des DAX dans la fourniture de résultats.

Rapports dentreprise à laide de LuckyTemplates

Rapports dentreprise à laide de LuckyTemplates

Si vous utilisez encore Excel jusqu'à présent, c'est le meilleur moment pour commencer à utiliser LuckyTemplates pour vos besoins en matière de rapports commerciaux.

Quest-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir

Quest-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir

Qu'est-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir