使用 Python 進行文本分析:如何識別詞性

使用 Python 進行文本分析:如何識別詞性

在此博客中,我們將向您展示如何使用 Python 進行文本分析,以識別 LuckyTemplates 中文本數據中的詞性。我們將介紹使用 Python 進行文本分析的步驟,並提供示例和提示來幫助您開始自己的文本分析項目。您可以在本博客底部觀看本教程的完整視頻。

目錄

源數據

在本教程中,我們將使用開箱即用的詞云,其中包含我們將要評估的文本。這顯示在下圖的左側。在右側,我們有過濾器來識別不同的詞性,例如形容詞或動詞。 

使用 Python 進行文本分析:如何識別詞性

我們可以過濾掉副詞、名詞、不同類型的名詞或動詞以及動詞詞根。這在創建營銷活動和在客戶評論中查找詞語時非常有用。 

讓我們首先打開我們的Power Query編輯器。 

在我們的源數據中,我們有 ID、年齡、職位和評論文本列。我們將專注於Review Text列,我們將解析它以進行文本分析。還有其他類別可能對我們的分析有用。

使用 Python 進行文本分析:如何識別詞性

使用 Python 進行文本分析

讓我們從我們引入的普通數據開始。我們要做的第一件事是過濾行,因為我們有很多數據,而當我們進行文本分析時,它需要時間。 

要過濾我們的數據,請使用前 50 行以使文本分析更快一些。 

使用 Python 進行文本分析:如何識別詞性

過濾掉後,轉到轉換運行Python腳本。我們將在這裡編寫所有代碼,因為代碼不多。 

使用 Python 進行文本分析:如何識別詞性

導入包

讓我們使用Python 腳本編輯器為我們的 Python 文本分析引入兩個包。我們將“將pandas導入為 pd”,將我們的數據操作庫保存為變量 pd。然後“ from text blob,我們將“ import TextBlob”,在單詞之間加上大寫字母。 

我們總是可以通過放置文檔字符串來記錄我們正在做的事情。讓我們在我們的包之上編寫#bring 基本庫。

使用 Python 進行文本分析:如何識別詞性

重命名變量

在我們腳本的第一行中,LuckyTemplates 提供了這一行,上面寫著# 'dataset' 保存該腳本的輸入數據。這一行表示我們的數據稱為數據集。 

所以讓我們改變它,因為編寫“數據集”需要很長時間。在下一行輸入#change the dataset 變量df = dataset 。

使用 Python 進行文本分析:如何識別詞性

現在編寫我們的變量更短了。 

進行文本分析

讓我們繼續我們的文本分析。回想一下,我們的評論文本位於包含單個單元格的列中。此設置對我們並沒有真正幫助,因為我們希望將所有文本放在一起,以便我們可以對其進行分析。 

但是,我們不希望它們在沒有空格的情況下連接在一起,所以讓我們在代碼的開頭加上一個雙引號內的空格。  

然後讓我們添加.join並使用保存數據集的df變量隔離評論文本列。鍵入放在括號符號內的 “審閱文本” ,以隔離該列。

這段代碼將加入所有內容,但我們需要保存它,所以讓我們創建一個名為words 的變量。

使用 Python 進行文本分析:如何識別詞性

一旦我們將所有單詞放在一起,我們就可以使用我們的文本 blob 開始分析單詞。 

首先要做的是使用blob變量創建我們的詞性,我們需要將單詞傳遞給文本 blob。我們將使用該文本 blob 並傳入文本,即我們的words。這被鍵入為blob = TextBlob(words)。

現在我們有了那個 blob,然後我們將使用它並使用blob.tags創建我們的parts_of_speech變量。標籤將是每個詞類的縮寫。 

接下來我們要做的是使用我們引入的Pandas將其保存為數據框。我們稱它為我們的數據,它等於 pd.DataFrame並且我們引入了parts_of_speech。 

使用 Python 進行文本分析:如何識別詞性

讓我們單擊“確定”來運行我們的代碼。運行我們的代碼後,我們應該得到一個變量表。我們有數據集或我們的原始數據。我們也有我們的數據df。 

使用 Python 進行文本分析:如何識別詞性

如果您沒有得到預期的結果,我們將向您展示不同的方法來避免您可能在代碼中遇到的一些錯誤。

修復 Python 中的文本分析代碼

有時,我們可能需要非常明確地更改我們關注的文本格式。 

我們可以通過調用我們的df變量,隔離放置在括號符號內的'Review Text ',然後使用.astype('str')將類型更改為字符串來做到這一點。然後將其重新保存到df變量中。 

使用 Python 進行文本分析:如何識別詞性

單擊“確定”重新運行代碼。我們應該得到與之前相同的結果。

現在,我們要打開我們的數據,這是我們引入的最後一個變量,看看它是什麼樣子。 

使用 Python 進行文本分析:如何識別詞性

我們應該用詞性來分解我們所有的話。我們還沒有命名我們的列,但我們可以很容易地做到這一點。 

使用 Python 進行文本分析:如何識別詞性

在同一文本分析的舊版本中,我將第一列稱為Word,將第二列稱為Abbreviation。 

使用 Python 進行文本分析:如何識別詞性

詞性查詢中,我們引入了這些縮寫的實際單詞並將它們連接在一起。

使用 Python 進行文本分析:如何識別詞性

現在,讓我們關閉並應用。 

使用 Python 進行文本分析:如何識別詞性

我們執行的步驟允許我們使用簡單的Python代碼過濾我們識別的不同詞性。它在 LuckyTemplates 中為我們提供了這種視覺效果,我們可以在其中根據文本所屬的詞性類別輕鬆過濾我們的文本。 

使用 Python 進行文本分析:如何識別詞性


Python 中的文本分析 | Python 用戶定義函數簡介
| LuckyTemplates 中的 Python 列表和 For 循環概述

結論

作為一名數據分析師,您可能會遇到從大量非結構化文本數據中提取見解和意義的需求。您學到的是一種通過文本分析理解文本數據的有用方法。

現在,您可以輕鬆地將文本分解為更小的單元,例如單詞和句子,然後分析這些單元的模式和關係。您可以使用 Python 和 LuckyTemplates 中的文本分析來實現所有這些目標。 

一切順利,


什麼是 Python 中的自我:真實世界的例子

什麼是 Python 中的自我:真實世界的例子

什麼是 Python 中的自我:真實世界的例子

如何在 R 中保存和加載 RDS 文件

如何在 R 中保存和加載 RDS 文件

您將學習如何在 R 中保存和加載 .rds 文件中的對象。本博客還將介紹如何將對像從 R 導入 LuckyTemplates。

回顧前 N 個工作日——DAX 編碼語言解決方案

回顧前 N 個工作日——DAX 編碼語言解決方案

在此 DAX 編碼語言教程中,了解如何使用 GENERATE 函數以及如何動態更改度量標題。

在 LuckyTemplates 中使用多線程動態視覺技術展示見解

在 LuckyTemplates 中使用多線程動態視覺技術展示見解

本教程將介紹如何使用多線程動態可視化技術從報告中的動態數據可視化中創建見解。

LuckyTemplates 篩選上下文簡介

LuckyTemplates 篩選上下文簡介

在本文中,我將貫穿過濾器上下文。篩選上下文是任何 LuckyTemplates 用戶最初應該了解的主要主題之一。

使用 LuckyTemplates 在線服務中的應用程序的最佳技巧

使用 LuckyTemplates 在線服務中的應用程序的最佳技巧

我想展示 LuckyTemplates Apps 在線服務如何幫助管理從各種來源生成的不同報告和見解。

隨著時間的推移分析利潤率變化——使用 LuckyTemplates 和 DAX 進行分析

隨著時間的推移分析利潤率變化——使用 LuckyTemplates 和 DAX 進行分析

了解如何在 LuckyTemplates 中使用度量分支和組合 DAX 公式等技術計算利潤率變化。

DAX Studio 中數據緩存的物化想法

DAX Studio 中數據緩存的物化想法

本教程將討論數據緩存物化的想法,以及它們如何影響 DAX 在提供結果時的性能。

使用 LuckyTemplates 進行業務報告

使用 LuckyTemplates 進行業務報告

如果直到現在你還在使用 Excel,那麼現在是開始使用 LuckyTemplates 來滿足你的業務報告需求的最佳時機。

什麼是 LuckyTemplates 網關?所有你必須知道的

什麼是 LuckyTemplates 網關?所有你必須知道的

什麼是 LuckyTemplates 網關?所有你必須知道的