Python でのテキスト分析

このブログでは、テキストコンテンツから構築データを作成するための Python でのテキスト分析について説明します。これは、大量のデータを分析するのに役立ち、特定のタスクにかかる時間を短縮できます。自然言語処理タスクを扱うテキストブロブに関する知識も習得します。

テキスト分析は、テキストデータの生成とグループ化の自動化プロセス用のコードを使用してテキストを分析するプロセスです。

続行する前に、このチュートリアルで使用するライブラリをインストールする必要がある場合があります。

Python でのテキスト分析の実装
Python でのテキストデータのトークン化
Python でトークンを結合して文を形成する
- .tags 関数を使用して品詞の Textblob を分析する
- Python でのテキスト分析に ngrams 関数を利用する
結論

Python でのテキスト分析の実装

textblobをインポートすることから始めましょう。コメントを使用して何を行っているかを必ず文書化してください。

Python でのテキスト分析 | はじめに

上記のコードを実行すると、textblobライブラリにアクセスできるようになります。次のステップでは、例に使用する文を作成します。これを行うには、文章をSentenceという名前の変数に保存します。

追加する文は必ず二重引用符で囲んでください。

Python でのテキスト分析 | はじめに

textblobは、 Pythonでのテキスト分析に blob を作成し、その関数の一部を使用できる優れたライブラリです。

Python でのテキスト分析 | はじめに

BLOB を作成するには、まず変数を作成し、blobという名前を付けます。この変数には、使用しているライブラリであるTextBlobを追加する必要があります。

括弧内では、前に作成した文を保持する文変数を利用します。この部分の括弧内に文章そのものを手動で入力することもできることに注意してください。

このBLOB変数の動作を確認するには、変数名を入力して Shift + Enter キーを押すだけで初期化できます。出力は次の例のようになります。

Python でのテキスト分析 | はじめに

結果からわかるように、文章変数に格納した文はTextBlobに含まれるようになりました。

Python でのテキストデータのトークン化

文からいくつかの単語を削除したい場合は、これらの単語をリスト内の個別の部分に分割できます。この与えられた文で、これから行うことは、それらをトークン化するか、各単語を分離してリストに入れることです。

これを行うには、 blob変数を利用し、tokenize関数を使用します。次に、それをWordsという名前の変数に保存します。

Python でのテキスト分析 | はじめに

BLOB変数を初期化したのと同じ方法でWord変数を初期化して、トークン化されたリストに何が含まれているかを確認しましょう。

Python でのテキスト分析 | はじめに

ご覧のとおり、各単語、さらには句読点もリスト内で分離されています。これがトークン化機能の仕組みです。

単語のリストができたので、そこから別の機能を実行できます。句読点や冠詞など、リストに含めたくない単語の別のリストを作成しましょう。この手順を実行するには、以下のスクリーンショットを参照してください。

Python でのテキスト分析 | はじめに

ストップワードのリストを作成する際、括弧を使用してストップワードのリストを囲みました。次に、各ストップワードを一重引用符で囲み、それぞれをカンマで区切ります。リストをstop_words変数に保存しました。

ここからは、リスト内包表記を実行して、Pythonでテキスト分析を行うために必要な単語を削除します。これには、文のクリーニング、トークン化、さまざまなリストの比較が含まれます。次に、これら 2 つのリストを比較し、clean_tokensの新しいリストを作成します。

Python でのテキスト分析 | はじめに

上記のコードでは、要素を表すためにwというプレースホルダーを利用しました。この部分でやろうとしていることは、要素が stop_words 変数に存在しない場合に、words 変数内の要素を取得することです。clean_tokens を初期化する場合、結果は次のようになります。

Python でのテキスト分析 | はじめに

このプロセスでは、句読点や冠詞などの不要なトークンを削除するプロセスを入れることで、トークンをクリーンアップすることができます。そのため、リストにはエッセンスの単語だけが残っています。

Python でトークンを結合して文を形成する

クリーントークンを分離したので、それらを 1 つの文にまとめてみましょう。そのためには、.join関数を利用する必要があります。以下の例を参考にしてください。

Python でのテキスト分析 | はじめに

上の例では、文章に結合されるクリーントークンを保持するclean_sentenceという名前の変数を作成しました。二重引用符で囲まれたスペースと.join関数が追加されていることにも注目してください。パラメーター内に、clean_tokens変数を含めました。

これは、 clean_sentence変数を初期化した場合の出力になります。

Python でのテキスト分析 | はじめに

先ほど冠詞と句読点を削除したため、文が正しく見えなくなっていることがわかります。

clean_sentenceを作成した後、作成したばかりのclean_sentenceを含む新しいtextblobを作成してみましょう。次に、それを新しい変数clean_blobに保存します。

Python でのテキスト分析 | はじめに

.tags 関数を使用して品詞の Textblob を分析する

この分析 BLOB から、この BLOB の一部を使用して品詞を確認したり、さらに変更を加えることができます。新しいtextblob内の各単語の品詞をチェックしてみましょう。

Python でのテキスト分析 | はじめに

textblob 内の品詞を確認するには、.tags関数を使用する必要があります。clean_blob変数を利用してこれを実行し、その直後に.tags関数を追加しました。

.tags関数の初期化時にエラーメッセージが表示された場合は、エラーを修正するための手順を読んで実行してください。この場合はこんな感じになります。

Python でのテキスト分析 | はじめに

このエラーメッセージの最後を下にスクロールすると、使用しようとしている機能に必要なデータが表示されます。

Python でのテキスト分析 | はじめに

必要なデータをダウンロードするために初期化する必要があるコードが見つかったら、そのコードをコピーし、Windows Searchを使用してAnaconda プロンプトを開きます。

Python でのテキスト分析 | はじめに

Anaconda Promptを使用して、 .tags関数の初期化時に受け取ったエラーを修正してみます。ここで、前にエラーメッセージからコピーしたコードを貼り付け、Enter を押して実行します。

Python でのテキスト分析 | はじめに

完了したら、.tags関数を再度実行して、機能するかどうかを確認します。

Python でのテキスト分析 | はじめに

コードを再度実行すると、エラーが修正され、新しいテキストブロブの各単語とタグまたは品詞を含む結果を受け取ったことがわかります。

これらのタグの意味がわからない場合は、 textblob Web サイトにアクセスして、これらのタグが何を表しているのかを確認してください。

Python でのテキスト分析に ngrams 関数を利用する

別の例に移りましょう。これはngram の取得に関するものです。ngrams関数は、文または文書内で頻繁に一緒に出現する単語を検索するために使用されます。例として、新しいテキストブロブを作成し、それをblob3変数に保存することから始めましょう。

Python でのテキスト分析 | はじめに

その後、blob3変数のngrams関数を利用して、いくつかの単語の組み合わせを確認してみましょう。

Python でのテキスト分析 | はじめに

デフォルトでは、パラメータに値を指定しなかった場合は、トライグラムまたは 3 つの単語の組み合わせが表示されます。ただし、文中の 2 つの単語の組み合わせを確認したい場合は、以下の例のようにパラメーターに2を設定します。

Python でのテキスト分析 | はじめに

今度は長めの文で試してみましょう。この例では、映画レビューから長いテキストをコピーしただけです。この部分には任意の文を使用できます。

Python でのテキスト分析 | はじめに

最後の例として、より有益な文でもう一度ngram を使用してみましょう。

Python でのテキスト分析 | はじめに

これらすべての例を使用すると、 ngrams関数で得られた結果に基づいて、Python でさらに多くのテキスト分析を実行できます。

LuckyTemplates ユーザー向けの Python II – オンデマンドプラットフォームの新しいコースLuckyTemplates
で Python を使用して Python でサンプルデータセットを読み込む方法|
データセットと文字列関数

結論

要約すると、Python でテキスト分析を実行するために利用できるさまざまな関数について学習しました。

文中の単語を区切る.tokenize 関数、トークン化された単語を結合する.join 関数、単語の品詞を確認する.tags 関数、単語の組み合わせを表示するngrams 関数です。

さらに、 Anaconda Promptを使用して.tags関数で行ったようなエラーを修正する方法も学びました。また、インポート、テキストブロブの作成、およびPythonでテキスト分析を実行するためにこのライブラリを利用する方法についても学習しました。

ではごきげんよう、

ガリム

Power Automate の文字列関数: Substring と IndexOf

Microsoft フローで使用できる 2 つの複雑な Power Automate String 関数、substring 関数とindexOf 関数を簡単に学習します。

LuckyTemplates でビジュアルツールチップを作成する

LuckyTemplates ツールチップを使用すると、より多くの情報を 1 つのレポートページに圧縮できます。効果的な視覚化の手法を学ぶことができます。

Power Automate で HTTP 要求を行う

Power Automate で HTTP 要求を作成し、データを受信する方法を学んでいます。

LuckyTemplates で日付テーブルを作成する方法

LuckyTemplates で簡単に日付テーブルを作成する方法について学びましょう。データの分析と視覚化のための効果的なツールとして活用できます。

2 つの方法による SharePoint 列の検証

SharePoint 列の検証の数式を使用して、ユーザーからの入力を制限および検証する方法を学びます。

SharePoint リストを Excel または CSV ファイルにエクスポート

SharePoint リストを Excel ファイルおよび CSV ファイルにエクスポートする方法を学び、さまざまな状況に最適なエクスポート方法を決定できるようにします。

Power Automate のオンプレミスデータゲートウェイ

ユーザーがコンピューターから離れているときに、オンプレミスデータゲートウェイを使用して Power Automate がデスクトップアプリケーションにアクセスできるようにする方法を説明します。

DAX 数式での LASTNONBLANK の使用

DAX 数式で LASTNONBLANK 関数を使用して、データ分析の深い洞察を得る方法を学びます。

CROSSJOIN 関数の使用方法 – LuckyTemplates および DAX チュートリアル

LuckyTemplates で予算分析とレポートを実行しながら、CROSSJOIN 関数を使用して 2 つのデータテーブルをバインドする方法を学びます。

TREATAS 関数を使用して LuckyTemplates で仮想リレーションシップを作成する

このチュートリアルでは、LuckyTemplates TREATAS を使用して数式内に仮想リレーションシップを作成する方法を説明します。

Python でのテキスト分析 | はじめに

Leave a Comment

Power Automate の文字列関数: Substring と IndexOf

LuckyTemplates でビジュアル ツールチップを作成する

Power Automate で HTTP 要求を行う

LuckyTemplates で日付テーブルを作成する方法

2 つの方法による SharePoint 列の検証

SharePoint リストを Excel または CSV ファイルにエクスポート

Power Automate のオンプレミス データ ゲートウェイ

DAX 数式での LASTNONBLANK の使用

CROSSJOIN 関数の使用方法 – LuckyTemplates および DAX チュートリアル

TREATAS 関数を使用して LuckyTemplates で仮想リレーションシップを作成する

LuckyTemplates でビジュアルツールチップを作成する

Power Automate のオンプレミスデータゲートウェイ