Python を使用したテキスト分析: 品詞を識別する方法

Python を使用したテキスト分析: 品詞を識別する方法

このブログでは、Python を使用してテキスト分析を実行し、LuckyTemplates 内のテキスト データ内の品詞を識別する方法を説明します。Python を使用してテキスト分析を行う手順を説明し、独自のテキスト分析プロジェクトを開始するのに役立つ例とヒントを提供します。このチュートリアルの完全なビデオは、このブログの下部でご覧いただけます。

目次

ソースデータ

このチュートリアルでは、評価するテキストを含むすぐに使えるワード クラウドを使用します。これは、下の画像の左側に示されています。右側には、形容詞や動詞など、さまざまな品詞を識別するためのフィルターがあります。 

Python を使用したテキスト分析: 品詞を識別する方法

副詞、名詞、さまざまな種類の名詞または動詞、および動詞の基となる単語をフィルタリングして除外できます。これは、マーケティング キャンペーンを作成する場合や、顧客レビュー内の単語を探す場合に非常に役立ちます。 

まず、 Power Queryエディターを開いてみましょう。 

ソース データには、ID、年齢、タイトル、レビュー テキストの列があります。「Review Text」列に焦点を当て、それを解析してテキスト分析を行います。分析に役立つ可能性のある他のカテゴリもあります。

Python を使用したテキスト分析: 品詞を識別する方法

Pythonを使用したテキスト分析

取り込んだ通常のデータから始めましょう。データが大量にあり、テキスト分析を行うと時間がかかるため、最初に行をフィルター処理します。 

データをフィルターするには、テキスト分析を少し速くするために最初の 50 行を取得します。 

Python を使用したテキスト分析: 品詞を識別する方法

フィルターで除外したら、「Pythonスクリプトの変換実行」に移動します。コードの量はそれほど多くないため、ここですべてをコーディングします。 

Python を使用したテキスト分析: 品詞を識別する方法

パッケージのインポート

Python スクリプトエディターを使用して、Python テキスト分析用の 2 つのパッケージを導入しましょう。パンダを pd としてインポート」し、データ操作ライブラリを変数 pd として保存します。次に、「from text blob 、単語の間に大文字を入れて 「 import TextBlob」を実行します。

ドキュメント文字列を入力することで、いつでも自分が行っていることを文書化できます。パッケージの上に必須ライブラリを #bring inと書きましょう。

Python を使用したテキスト分析: 品詞を識別する方法

変数の名前を変更する

スクリプトの最初の行には、LuckyTemplates によって提供される# 'dataset' がこのスクリプトの入力データを保持するという行があります。この行は、データがデータセットと呼ばれることを示しています。 

「データセット」の書き込みに時間がかかりすぎるため、これを変更しましょう。次の行に#change the dataset 変数df = datasetを入力します。

Python を使用したテキスト分析: 品詞を識別する方法

変数の記述が短くなりました。 

テキスト分析を行う

テキスト分析を進めてみましょう。レビュー テキストは個々のセルを持つ列にあることを思い出してください。すべてのテキストをまとめて分析できるようにする必要があるため、この設定はあまり役に立ちません。 

ただし、スペースなしで結合することは望ましくないので、二重引用符内にスペースを入れてコードを開始しましょう。  

次に、.joinを追加し、データセットを保持するdf変数を使用してレビュー テキスト列を分離しましょう。列を分離する括弧表記の内側に「Review Text」と入力し ます

このコードはすべてを結合しますが、保存する必要があるので、words という変数を作成しましょう

Python を使用したテキスト分析: 品詞を識別する方法

すべての単語を集めたら、テキスト BLOB を使用して単語の分析を開始できます。 

最初に行うことは、単語をテキスト BLOB に渡すために必要なBLOB変数を使用して品詞を作成することです。そのテキスト blob を使用して、テキスト (単語) を渡しますこれは、 blob = TextBlob(words)として入力されます。

blob を取得したので、それを取得し、blob.tagsを使用してpart_of_speech変数を作成します。タグは各品詞の略語になります。 

次に行うことは、取り込んだPandas を使用してこれをデータ フレームとして保存することです。これをpd.DataFrameと等しいデータと呼び、 parts_of_speechを取り込みます。 

Python を使用したテキスト分析: 品詞を識別する方法

「OK」をクリックしてコードを実行しましょう。コードを実行した後、変数のテーブルを取得する必要があります。データセットまたは元のデータがあります。データdfもあります。 

Python を使用したテキスト分析: 品詞を識別する方法

意図した結果が得られなかった場合は、コード内で発生する可能性のあるエラーを回避するためのさまざまな方法を示します。

Python でのテキスト分析用のコードの修正

場合によっては、対象となるテキストの形式を明確に変更する必要がある場合があります。 

これを行うには、df変数を呼び出し、括弧表記内に配置された'Review Text ' を分離し、 .astype('str')を使用して型を文字列に変更します。次に、これをdf変数に再保存するだけです。 

Python を使用したテキスト分析: 品詞を識別する方法

「OK」をクリックしてコードを再実行します。先ほどと同じ結果が得られるはずです。

ここで、どのようなものかを確認するために取り込んだ最後の変数である dataを開いてみましょう。

Python を使用したテキスト分析: 品詞を識別する方法

すべての単語を品詞ごとに分割する必要があります。まだ列に名前を付けていませんが、簡単に付けることができます。 

Python を使用したテキスト分析: 品詞を識別する方法

この同じテキスト分析の古いバージョンでは、最初の列をWord、2 番目の列をAbbreviationと呼びました。 

Python を使用したテキスト分析: 品詞を識別する方法

品詞クエリでは、これらの略語に相当する実際の単語を取り込み、それらをすべて結合します。

Python を使用したテキスト分析: 品詞を識別する方法

それでは、閉じて適用しましょう。 

Python を使用したテキスト分析: 品詞を識別する方法

この手順により、単純なPythonコードを使用して特定したさまざまな品詞をフィルタリングすることができました。LuckyTemplates ではこのようなビジュアルが得られ、品詞カテゴリに基づいてテキストを簡単にフィルターできます。 

Python を使用したテキスト分析: 品詞を識別する方法


Python でのテキスト分析 | はじめに
Python ユーザー定義関数 | LuckyTemplates の Python リストと For ループの概要

結論

データ アナリストとして、大量の非構造化テキスト データから洞察と意味を抽出する必要がある場合があります。学んだことは、テキスト分析を通じてテキスト データを理解するための有用なアプローチです。

テキストを単語や文などの小さな単位に簡単に分解し、これらの単位をパターンや関係について分析できるようになりました。Python と LuckyTemplates のテキスト分析を使用すると、これらすべての目標を達成できます。 

ではごきげんよう、


Python における Self とは: 実際の例

Python における Self とは: 実際の例

Python における Self とは: 実際の例

RでRDSファイルを保存してロードする方法

RでRDSファイルを保存してロードする方法

R の .rds ファイルからオブジェクトを保存および読み込む方法を学習します。このブログでは、R から LuckyTemplates にオブジェクトをインポートする方法についても説明します。

最初の N 営業日の再考 – DAX コーディング言語ソリューション

最初の N 営業日の再考 – DAX コーディング言語ソリューション

この DAX コーディング言語チュートリアルでは、GENERATE 関数の使用方法とメジャー タイトルを動的に変更する方法を学びます。

LuckyTemplates のマルチスレッド動的ビジュアル手法を使用したインサイトのショーケース

LuckyTemplates のマルチスレッド動的ビジュアル手法を使用したインサイトのショーケース

このチュートリアルでは、マルチスレッド動的ビジュアル手法を使用して、レポート内の動的データ視覚化から洞察を作成する方法について説明します。

LuckyTemplates のフィルター コンテキストの概要

LuckyTemplates のフィルター コンテキストの概要

この記事では、フィルター コンテキストについて説明します。フィルター コンテキストは、LuckyTemplates ユーザーが最初に学習する必要がある主要なトピックの 1 つです。

LuckyTemplates Online Service でアプリを使用する際の最良のヒント

LuckyTemplates Online Service でアプリを使用する際の最良のヒント

LuckyTemplates Apps オンライン サービスが、さまざまなソースから生成されたさまざまなレポートや分析情報の管理にどのように役立つかを示したいと思います。

時間の経過に伴う利益率の変化を分析する – LuckyTemplates と DAX を使用した分析

時間の経過に伴う利益率の変化を分析する – LuckyTemplates と DAX を使用した分析

LuckyTemplates でのメジャー分岐や DAX 数式の結合などの手法を使用して、利益率の変化を計算する方法を学びます。

DAX Studio でのデータ キャッシュのマテリアライゼーションのアイデア

DAX Studio でのデータ キャッシュのマテリアライゼーションのアイデア

このチュートリアルでは、データ キャッシュの具体化のアイデアと、それが結果を提供する際の DAX のパフォーマンスにどのように影響するかについて説明します。

LuckyTemplates を使用したビジネス レポート

LuckyTemplates を使用したビジネス レポート

これまで Excel を使用している場合は、ビジネス レポートのニーズに合わせて LuckyTemplates の使用を開始するのに最適な時期です。

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて