Python を使用したテキスト分析: 品詞を識別する方法

Python を使用したテキスト分析: 品詞を識別する方法

このブログでは、Python を使用してテキスト分析を実行し、LuckyTemplates 内のテキスト データ内の品詞を識別する方法を説明します。Python を使用してテキスト分析を行う手順を説明し、独自のテキスト分析プロジェクトを開始するのに役立つ例とヒントを提供します。このチュートリアルの完全なビデオは、このブログの下部でご覧いただけます。

目次

ソースデータ

このチュートリアルでは、評価するテキストを含むすぐに使えるワード クラウドを使用します。これは、下の画像の左側に示されています。右側には、形容詞や動詞など、さまざまな品詞を識別するためのフィルターがあります。 

Python を使用したテキスト分析: 品詞を識別する方法

副詞、名詞、さまざまな種類の名詞または動詞、および動詞の基となる単語をフィルタリングして除外できます。これは、マーケティング キャンペーンを作成する場合や、顧客レビュー内の単語を探す場合に非常に役立ちます。 

まず、 Power Queryエディターを開いてみましょう。 

ソース データには、ID、年齢、タイトル、レビュー テキストの列があります。「Review Text」列に焦点を当て、それを解析してテキスト分析を行います。分析に役立つ可能性のある他のカテゴリもあります。

Python を使用したテキスト分析: 品詞を識別する方法

Pythonを使用したテキスト分析

取り込んだ通常のデータから始めましょう。データが大量にあり、テキスト分析を行うと時間がかかるため、最初に行をフィルター処理します。 

データをフィルターするには、テキスト分析を少し速くするために最初の 50 行を取得します。 

Python を使用したテキスト分析: 品詞を識別する方法

フィルターで除外したら、「Pythonスクリプトの変換実行」に移動します。コードの量はそれほど多くないため、ここですべてをコーディングします。 

Python を使用したテキスト分析: 品詞を識別する方法

パッケージのインポート

Python スクリプトエディターを使用して、Python テキスト分析用の 2 つのパッケージを導入しましょう。パンダを pd としてインポート」し、データ操作ライブラリを変数 pd として保存します。次に、「from text blob 、単語の間に大文字を入れて 「 import TextBlob」を実行します。

ドキュメント文字列を入力することで、いつでも自分が行っていることを文書化できます。パッケージの上に必須ライブラリを #bring inと書きましょう。

Python を使用したテキスト分析: 品詞を識別する方法

変数の名前を変更する

スクリプトの最初の行には、LuckyTemplates によって提供される# 'dataset' がこのスクリプトの入力データを保持するという行があります。この行は、データがデータセットと呼ばれることを示しています。 

「データセット」の書き込みに時間がかかりすぎるため、これを変更しましょう。次の行に#change the dataset 変数df = datasetを入力します。

Python を使用したテキスト分析: 品詞を識別する方法

変数の記述が短くなりました。 

テキスト分析を行う

テキスト分析を進めてみましょう。レビュー テキストは個々のセルを持つ列にあることを思い出してください。すべてのテキストをまとめて分析できるようにする必要があるため、この設定はあまり役に立ちません。 

ただし、スペースなしで結合することは望ましくないので、二重引用符内にスペースを入れてコードを開始しましょう。  

次に、.joinを追加し、データセットを保持するdf変数を使用してレビュー テキスト列を分離しましょう。列を分離する括弧表記の内側に「Review Text」と入力し ます

このコードはすべてを結合しますが、保存する必要があるので、words という変数を作成しましょう

Python を使用したテキスト分析: 品詞を識別する方法

すべての単語を集めたら、テキスト BLOB を使用して単語の分析を開始できます。 

最初に行うことは、単語をテキスト BLOB に渡すために必要なBLOB変数を使用して品詞を作成することです。そのテキスト blob を使用して、テキスト (単語) を渡しますこれは、 blob = TextBlob(words)として入力されます。

blob を取得したので、それを取得し、blob.tagsを使用してpart_of_speech変数を作成します。タグは各品詞の略語になります。 

次に行うことは、取り込んだPandas を使用してこれをデータ フレームとして保存することです。これをpd.DataFrameと等しいデータと呼び、 parts_of_speechを取り込みます。 

Python を使用したテキスト分析: 品詞を識別する方法

「OK」をクリックしてコードを実行しましょう。コードを実行した後、変数のテーブルを取得する必要があります。データセットまたは元のデータがあります。データdfもあります。 

Python を使用したテキスト分析: 品詞を識別する方法

意図した結果が得られなかった場合は、コード内で発生する可能性のあるエラーを回避するためのさまざまな方法を示します。

Python でのテキスト分析用のコードの修正

場合によっては、対象となるテキストの形式を明確に変更する必要がある場合があります。 

これを行うには、df変数を呼び出し、括弧表記内に配置された'Review Text ' を分離し、 .astype('str')を使用して型を文字列に変更します。次に、これをdf変数に再保存するだけです。 

Python を使用したテキスト分析: 品詞を識別する方法

「OK」をクリックしてコードを再実行します。先ほどと同じ結果が得られるはずです。

ここで、どのようなものかを確認するために取り込んだ最後の変数である dataを開いてみましょう。

Python を使用したテキスト分析: 品詞を識別する方法

すべての単語を品詞ごとに分割する必要があります。まだ列に名前を付けていませんが、簡単に付けることができます。 

Python を使用したテキスト分析: 品詞を識別する方法

この同じテキスト分析の古いバージョンでは、最初の列をWord、2 番目の列をAbbreviationと呼びました。 

Python を使用したテキスト分析: 品詞を識別する方法

品詞クエリでは、これらの略語に相当する実際の単語を取り込み、それらをすべて結合します。

Python を使用したテキスト分析: 品詞を識別する方法

それでは、閉じて適用しましょう。 

Python を使用したテキスト分析: 品詞を識別する方法

この手順により、単純なPythonコードを使用して特定したさまざまな品詞をフィルタリングすることができました。LuckyTemplates ではこのようなビジュアルが得られ、品詞カテゴリに基づいてテキストを簡単にフィルターできます。 

Python を使用したテキスト分析: 品詞を識別する方法


Python でのテキスト分析 | はじめに
Python ユーザー定義関数 | LuckyTemplates の Python リストと For ループの概要

結論

データ アナリストとして、大量の非構造化テキスト データから洞察と意味を抽出する必要がある場合があります。学んだことは、テキスト分析を通じてテキスト データを理解するための有用なアプローチです。

テキストを単語や文などの小さな単位に簡単に分解し、これらの単位をパターンや関係について分析できるようになりました。Python と LuckyTemplates のテキスト分析を使用すると、これらすべての目標を達成できます。 

ではごきげんよう、


Power Automate の文字列関数: Substring と IndexOf

Power Automate の文字列関数: Substring と IndexOf

Microsoft フローで使用できる 2 つの複雑な Power Automate String 関数、substring 関数とindexOf 関数を簡単に学習します。

LuckyTemplates でビジュアル ツールチップを作成する

LuckyTemplates でビジュアル ツールチップを作成する

LuckyTemplates ツールチップを使用すると、より多くの情報を 1 つのレポート ページに圧縮できます。効果的な視覚化の手法を学ぶことができます。

Power Automate で HTTP 要求を行う

Power Automate で HTTP 要求を行う

Power Automate で HTTP 要求を作成し、データを受信する方法を学んでいます。

LuckyTemplates で日付テーブルを作成する方法

LuckyTemplates で日付テーブルを作成する方法

LuckyTemplates で簡単に日付テーブルを作成する方法について学びましょう。データの分析と視覚化のための効果的なツールとして活用できます。

2 つの方法による SharePoint 列の検証

2 つの方法による SharePoint 列の検証

SharePoint 列の検証の数式を使用して、ユーザーからの入力を制限および検証する方法を学びます。

SharePoint リストを Excel または CSV ファイルにエクスポート

SharePoint リストを Excel または CSV ファイルにエクスポート

SharePoint リストを Excel ファイルおよび CSV ファイルにエクスポートする方法を学び、さまざまな状況に最適なエクスポート方法を決定できるようにします。

Power Automate のオンプレミス データ ゲートウェイ

Power Automate のオンプレミス データ ゲートウェイ

ユーザーがコンピューターから離れているときに、オンプレミス データ ゲートウェイを使用して Power Automate がデスクトップ アプリケーションにアクセスできるようにする方法を説明します。

DAX 数式での LASTNONBLANK の使用

DAX 数式での LASTNONBLANK の使用

DAX 数式で LASTNONBLANK 関数を使用して、データ分析の深い洞察を得る方法を学びます。

CROSSJOIN 関数の使用方法 – LuckyTemplates および DAX チュートリアル

CROSSJOIN 関数の使用方法 – LuckyTemplates および DAX チュートリアル

LuckyTemplates で予算分析とレポートを実行しながら、CROSSJOIN 関数を使用して 2 つのデータ テーブルをバインドする方法を学びます。

TREATAS 関数を使用して LuckyTemplates で仮想リレーションシップを作成する

TREATAS 関数を使用して LuckyTemplates で仮想リレーションシップを作成する

このチュートリアルでは、LuckyTemplates TREATAS を使用して数式内に仮想リレーションシップを作成する方法を説明します。