Quest-ce que le self en Python ? Exemples concrets
Qu'est-ce que le self en Python ? Exemples concrets
Dans ce blog, nous allons discuter de l'analyse de texte en Python pour créer des données construites à partir de contenu textuel. Cela vous aidera à analyser de grandes quantités de données et consommera moins de temps pour travailler sur certaines tâches. Vous acquerrez également des connaissances sur textblob qui traitent des tâches de traitement du langage naturel.
L'analyse de texte est le processus d'analyse de textes à l'aide de codes pour des processus automatisés de production et de regroupement de données textuelles.
Avant de continuer, vous devrez peut-être installer la bibliothèque que nous utiliserons dans ce didacticiel.
Table des matières
Implémentation de l'analyse de texte en Python
Commençons par importer textblob . N'oubliez pas de documenter ce que vous faites avec l'utilisation de commentaires.
En exécutant le code ci-dessus, nous avons maintenant accès à la bibliothèque textblob . La prochaine étape que nous allons faire est de créer une phrase que nous allons utiliser pour nos exemples. Nous allons le faire en stockant une phrase dans une variable nommée phrase .
N'oubliez pas de mettre la phrase que vous souhaitez ajouter entre guillemets doubles.
Le textblob est une excellente bibliothèque où nous pouvons créer un blob et utiliser certaines de ses fonctions pour notre analyse de texte en Python .
Pour créer le blob, nous commençons par créer une variable et la nommer blob . Dans cette variable, nous devons ajouter TextBlob qui est la bibliothèque que nous utilisons.
À l'intérieur des parenthèses, nous utiliserons la variable phrase qui contient la phrase que nous avons créée précédemment. Notez que vous pouvez choisir de taper manuellement la phrase elle-même à l'intérieur des parenthèses pour cette partie.
Pour vérifier ce que fait cette variable blob , vous pouvez simplement l'initialiser en tapant le nom de la variable et en appuyant sur les touches Maj + Entrée. La sortie doit être similaire à l'exemple ci-dessous.
Comme vous pouvez le voir sur le résultat, la phrase que nous avons stockée dans la variable phrase est maintenant contenue par TextBlob .
Tokenisation des données textuelles en Python
Si vous souhaitez supprimer certains mots dans une phrase, nous pouvons séparer chacun de ces mots en parties individuelles dans une liste. Avec cette phrase donnée, ce que nous allons faire est de les symboliser ou de séparer chaque mot et de le mettre dans une liste.
Pour ce faire, nous allons utiliser la variable blob et utiliser la fonction tokenize . Ensuite, nous le stockerons dans une variable nommée mots .
Initialisons la variable mots de la même manière que nous l'avons fait lors de l'initialisation de la variable blob pour voir ce qui se trouve dans la liste tokenisée .
Comme vous pouvez le voir, chacun des mots, et même les signes de ponctuation sont maintenant séparés dans une liste. C'est ainsi que fonctionne la fonction tokenize .
Maintenant que nous avons une liste de mots, nous pouvons alors effectuer une autre fonction à partir de celle-ci. Créons une autre liste de mots que nous ne voulons pas inclure dans notre liste, comme les ponctuations et les articles. Pour effectuer cette étape, reportez-vous à la capture d'écran ci-dessous.
Lors de la création de la liste des mots vides, nous avons utilisé des parenthèses pour entourer la liste des mots vides. Ensuite, chacun des mots vides est entouré de guillemets simples et chacun est séparé par une virgule. Nous avons stocké la liste dans la variable stop_words .
À partir de là, nous allons effectuer une compréhension de liste pour supprimer les mots nécessaires à la réalisation d'une analyse de texte en Python . Cela inclut le nettoyage des phrases, la tokenisation et la comparaison de différentes listes. Nous allons maintenant comparer ces deux listes et créer une nouvelle liste de clean_tokens .
Dans le code présenté ci-dessus, nous avons utilisé un espace réservé qui est w pour représenter un élément . Ce que nous essayons de faire dans cette partie est d'obtenir l'élément dans la variable words si l'élément n'existe pas dans la variable stop_words . Si nous allons initialiser clean_tokens , ce sera le résultat.
Dans ce processus, nous sommes en mesure de nettoyer nos jetons en mettant en place un processus de suppression des jetons inutiles tels que les ponctuations et les articles. Pour cette raison, il ne nous reste que les mots essentiels sur notre liste.
Joindre des jetons pour former une phrase en Python
Maintenant que nous avons séparé les jetons propres , essayons de les regrouper en une seule phrase. Pour ce faire, nous devons utiliser la fonction .join . Vérifiez l'exemple ci-dessous pour référence.
Dans l'exemple ci-dessus, nous avons créé une variable nommée clean_sentence pour contenir nos jetons propres qui seront combinés dans une phrase. Vous pouvez également remarquer que nous avons ajouté un espace entre guillemets doubles et la fonction .join . Dans les paramètres, nous avons inclus la variable clean_tokens .
Ce sera la sortie si nous initialisons la variable clean_sentence .
Visiblement, la phrase ne semble pas correcte car nous avons supprimé les articles et les ponctuations plus tôt.
Après avoir créé le clean_sentence , essayons de créer un nouveau textblob contenant le clean_sentence que nous venons de créer. Ensuite, nous le stockerons dans une nouvelle variable clean_blob .
Disséquer un Textblob pour des parties du discours à l'aide de la fonction .tags
À partir de ce blob d'analyse, nous pouvons utiliser les morceaux de ce blob pour vérifier des parties du discours ou apporter encore plus de modifications. Essayons de vérifier les parties du discours de chaque mot dans notre nouveau textblob .
Afin de vérifier les parties du discours dans un textblob, vous devez utiliser la fonction .tags . J'ai fait cela en utilisant notre variable clean_blob puis j'ai ajouté la fonction .tags juste après.
Si jamais vous recevez un message d'erreur lors de l'initialisation de la fonction .tags , lisez et suivez les étapes afin de corriger l'erreur. Dans ce cas, voici à quoi cela ressemble.
Si vous faites défiler vers le bas à la fin de ce message d'erreur, vous verrez les données requises dont vous avez besoin pour la fonctionnalité que vous essayez d'utiliser.
Une fois que nous avons trouvé le code que nous devons initialiser pour télécharger les données nécessaires, copiez simplement le code, puis ouvrez Anaconda Prompt à l'aide de Windows Search .
En utilisant Anaconda Prompt , nous essaierons de corriger l'erreur que nous avons reçue lors de l'initialisation de la fonction .tags . Nous allons maintenant coller le code que nous avons copié à partir du message d'erreur précédent et l'exécuter en appuyant sur Entrée .
Une fois terminé, essayez à nouveau d'exécuter la fonction .tags et voyez si cela fonctionne.
En exécutant à nouveau le code, nous pouvons voir que l'erreur est corrigée et nous avons reçu un résultat qui contient chaque mot du nouveau textblob avec les balises ou les parties du discours.
Si vous n'avez aucune idée de la signification de ces balises , vous pouvez simplement vous rendre sur le site Web de textblob pour vérifier ce que ces balises représentent.
Utilisation de la fonction ngrams pour l'analyse de texte en Python
Passons à un autre exemple, qui consiste à obtenir les ngrams . La fonction ngrams est utilisée pour rechercher des mots qui sont fréquemment vus ensemble dans une phrase ou un document. Comme exemple, commençons par créer un nouveau textblob et stockons-le dans la variable blob3 .
Après cela, utilisons la fonction ngrams dans la variable blob3 pour vérifier certaines combinaisons de mots.
Par défaut, si vous n'avez pas spécifié de valeur dans les paramètres, il affichera des trigrammes ou des combinaisons de 3 mots. Mais si nous voulons voir des combinaisons de 2 mots à partir de la phrase, nous pouvons définir 2 dans les paramètres comme dans l'exemple ci-dessous.
Essayons avec une phrase plus longue cette fois. Dans cet exemple, je viens de copier un texte plus long d'une critique de film. Vous pouvez utiliser n'importe quelle phrase que vous voulez pour cette partie.
Comme dernier exemple, essayons d'utiliser ngrams une fois de plus avec une phrase plus informative.
Avec tous ces exemples, nous pouvons effectuer plus d'analyses de texte en Python en fonction des résultats que nous obtenons avec la fonction ngrams .
Python II pour les utilisateurs de LuckyTemplates - Nouveau cours sur la plate-forme à la demande
Comment charger des exemples de jeux de données en Python
à l'aide de Python dans LuckyTemplates | Ensemble de données et fonction de chaîne
Conclusion
En résumé, vous avez découvert les différentes fonctions que vous pouvez utiliser pour effectuer une analyse de texte en Python.
Il s'agit de la fonction .tokenize pour séparer les mots dans une phrase, de la fonction .join pour combiner des mots symbolisés, de la fonction .tags pour vérifier les parties du discours des mots et de la fonction ngrams pour afficher la combinaison de mots.
De plus, vous avez appris à corriger des erreurs comme ce que nous avons fait dans la fonction .tags en utilisant Anaconda Prompt . Vous avez également appris à importer, à créer un textblob et à utiliser cette bibliothèque pour effectuer une analyse de texte en Python .
Tous mes vœux,
Gaellim
Qu'est-ce que le self en Python ? Exemples concrets
Vous apprendrez à enregistrer et à charger des objets à partir d'un fichier .rds dans R. Ce blog expliquera également comment importer des objets de R vers LuckyTemplates.
Dans ce didacticiel sur le langage de codage DAX, découvrez comment utiliser la fonction GENERATE et comment modifier dynamiquement le titre d'une mesure.
Ce didacticiel explique comment utiliser la technique Multi Threaded Dynamic Visuals pour créer des informations à partir de visualisations de données dynamiques dans vos rapports.
Dans cet article, je vais parcourir le contexte du filtre. Le contexte de filtrage est l'un des principaux sujets que tout utilisateur de LuckyTemplates doit d'abord connaître.
Je souhaite montrer comment le service en ligne LuckyTemplates Apps peut aider à gérer différents rapports et informations générés à partir de diverses sources.
Découvrez comment calculer les modifications de votre marge bénéficiaire à l'aide de techniques telles que la création de branches de mesure et la combinaison de formules DAX dans LuckyTemplates.
Ce didacticiel abordera les idées de matérialisation des caches de données et comment elles affectent les performances des DAX dans la fourniture de résultats.
Si vous utilisez encore Excel jusqu'à présent, c'est le meilleur moment pour commencer à utiliser LuckyTemplates pour vos besoins en matière de rapports commerciaux.
Qu'est-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir