Python でのテキスト分析 | はじめに

Python でのテキスト分析 | はじめに

このブログでは、テキスト コンテンツから構築データを作成するための Python でのテキスト分析について説明します 。これは、大量のデータを分析するのに役立ち、特定のタスクにかかる時間を短縮できます。自然言語処理タスクを扱うテキストブロブに関する知識も習得します。

テキスト分析は、テキスト データの生成とグループ化の自動化プロセス用のコードを使用してテキストを分析するプロセスです。

続行する前に、このチュートリアルで使用するライブラリをインストールする必要がある場合があります。

目次

Python でのテキスト分析の実装

textblobをインポートすることから始めましょう。コメントを使用して何を行っているかを必ず文書化してください。

Python でのテキスト分析 |  はじめに

上記のコードを実行すると、textblobライブラリにアクセスできるようになります。次のステップでは、例に使用する文を作成します。これを行うには、文章をSentenceという名前の変数に保存します。

追加する文は必ず二重引用符で囲んでください。

Python でのテキスト分析 |  はじめに

textblobは、 Pythonでのテキスト分析に blob を作成し、その関数の一部を使用できる優れたライブラリです。

Python でのテキスト分析 |  はじめに

BLOB を作成するには、まず変数を作成し、blobという名前を付けます。この変数には、使用しているライブラリであるTextBlobを追加する必要があります。

括弧内では、前に作成した文を保持する文変数を利用します。この部分の括弧内に文章そのものを手動で入力することもできることに注意してください。

このBLOB変数の動作を確認するには、変数名を入力して Shift + Enter キーを押すだけで初期化できます。出力は次の例のようになります。

Python でのテキスト分析 |  はじめに

結果からわかるように、文章変数に格納した文はTextBlobに含まれるようになりました。

Python でのテキスト データのトークン化

文からいくつかの単語を削除したい場合は、これらの単語をリスト内の個別の部分に分割できます。この与えられた文で、これから行うことは、それらをトークン化するか、各単語を分離してリストに入れることです。

これを行うには、 blob変数を利用し、tokenize関数を使用します。次に、それをWordsという名前の変数に保存します。

Python でのテキスト分析 |  はじめに

BLOB変数を初期化したのと同じ方法でWord変数を初期化して、トークン化されたリストに何が含まれているかを確認しましょう。

Python でのテキスト分析 |  はじめに

ご覧のとおり、各単語、さらには句読点もリスト内で分離されています。これがトークン化機能の仕組みです。

単語のリストができたので、そこから別の機能を実行できます。句読点や冠詞など、リストに含めたくない単語の別のリストを作成しましょう。この手順を実行するには、以下のスクリーンショットを参照してください。

Python でのテキスト分析 |  はじめに

ストップ ワードのリストを作成する際、括弧を使用してストップ ワードのリストを囲みました。次に、各ストップ ワードを一重引用符で囲み、それぞれをカンマで区切ります。リストをstop_words変数に保存しました。

ここからは、リスト内包表記を実行して、Pythonでテキスト分析を行うために必要な単語を削除します。これには、文のクリーニング、トークン化、さまざまなリストの比較が含まれます。次に、これら 2 つのリストを比較し、clean_tokensの新しいリストを作成します。

Python でのテキスト分析 |  はじめに

上記のコードでは、要素を表すためにwというプレースホルダーを利用しました。この部分でやろうとしていることは、要素が stop_words 変数に存在しない場合に、words 変数内の要素を取得することですclean_tokens を初期化する場合、結果は次のようになります。

Python でのテキスト分析 |  はじめに

このプロセスでは、句読点や冠詞などの不要なトークンを削除するプロセスを入れることで、トークンをクリーンアップすることができます。そのため、リストにはエッセンスの単語だけが残っています。

Python でトークンを結合して文を形成する

クリーントークンを分離したので、それらを 1 つの文にまとめてみましょう。そのためには、.join関数を利用する必要があります。以下の例を参考にしてください。

Python でのテキスト分析 |  はじめに

上の例では、文章に結合されるクリーン トークンを保持するclean_sentenceという名前の変数を作成しました。二重引用符で囲まれたスペースと.join関数が追加されていることにも注目してください。パラメーター内に、clean_tokens変数を含めました。

これは、 clean_sentence変数を初期化した場合の出力になります。

Python でのテキスト分析 |  はじめに

先ほど冠詞と句読点を削除したため、文が正しく見えなくなっていることがわかります。

clean_sentenceを作成した後、作成したばかりのclean_sentenceを含む新しいtextblobを作成してみましょう。次に、それを新しい変数clean_blobに保存します。

Python でのテキスト分析 |  はじめに

.tags 関数を使用して品詞の Textblob を分析する

この分析 BLOB から、この BLOB の一部を使用して品詞を確認したり、さらに変更を加えることができます。新しいtextblob内の各単語の品詞をチェックしてみましょう。

Python でのテキスト分析 |  はじめに

textblob 内の品詞を確認するには、.tags関数を使用する必要があります。clean_blob変数を利用してこれを実行し、その直後に.tags関数を追加しました。

.tags関数の初期化時にエラー メッセージが表示された場合は、エラーを修正するための手順を読んで実行してください。この場合はこんな感じになります。

Python でのテキスト分析 |  はじめに

このエラー メッセージの最後を下にスクロールすると、使用しようとしている機能に必要なデータが表示されます。

Python でのテキスト分析 |  はじめに

必要なデータをダウンロードするために初期化する必要があるコードが見つかったら、そのコードをコピーし、Windows Searchを使用してAnaconda プロンプトを開きます。

Python でのテキスト分析 |  はじめに

Anaconda Promptを使用して、 .tags関数の初期化時に受け取ったエラーを修正してみます。ここで、前にエラー メッセージからコピーしたコードを貼り付け、Enter を押して実行します。

Python でのテキスト分析 |  はじめに

完了したら、.tags関数を再度実行して、機能するかどうかを確認します。

Python でのテキスト分析 |  はじめに

コードを再度実行すると、エラーが修正され、新しいテキストブロブの各単語とタグまたは品詞を含む結果を受け取ったことがわかります。

これらのタグの意味がわからない場合は、 textblob Web サイトにアクセスして、これらのタグが何を表しているのかを確認してください。 

Python でのテキスト分析に ngrams 関数を利用する

別の例に移りましょう。これはngram の取得に関するものです。ngrams関数は、文または文書内で頻繁に一緒に出現する単語を検索するために使用されます。例として、新しいテキストブロブを作成し、それをblob3変数に保存することから始めましょう。

Python でのテキスト分析 |  はじめに

その後、blob3変数のngrams関数を利用して、いくつかの単語の組み合わせを確認してみましょう。

Python でのテキスト分析 |  はじめに

デフォルトでは、パラメータに値を指定しなかった場合は、トライグラムまたは 3 つの単語の組み合わせが表示されます。ただし、文中の 2 つの単語の組み合わせを確認したい場合は、以下の例のようにパラメーターに2を設定します。

Python でのテキスト分析 |  はじめに

今度は長めの文で試してみましょう。この例では、映画レビューから長いテキストをコピーしただけです。この部分には任意の文を使用できます。

Python でのテキスト分析 |  はじめに

最後の例として、より有益な文でもう一度ngram を使用してみましょう。

Python でのテキスト分析 |  はじめに

これらすべての例を使用すると、 ngrams関数で得られた結果に基づいて、Python でさらに多くのテキスト分析を実行できます。


LuckyTemplates ユーザー向けの Python II – オンデマンド プラットフォームの新しいコースLuckyTemplates
で Python を使用して Python でサンプル データセットを読み込む方法|
データセットと文字列関数

結論

要約すると、Python でテキスト分析を実行するために利用できるさまざまな関数について学習しました。

文中の単語を区切る.tokenize 関数、トークン化された単語を結合する.join 関数、単語の品詞を確認する.tags 関数、単語の組み合わせを表示するngrams 関数です。

さらに、 Anaconda Promptを使用して.tags関数で行ったようなエラーを修正する方法も学びました。また、インポート、テキストブロブの作成、およびPythonでテキスト分析を実行するためにこのライブラリを利用する方法についても学習しました。

ではごきげんよう、

ガリム


Python における Self とは: 実際の例

Python における Self とは: 実際の例

Python における Self とは: 実際の例

RでRDSファイルを保存してロードする方法

RでRDSファイルを保存してロードする方法

R の .rds ファイルからオブジェクトを保存および読み込む方法を学習します。このブログでは、R から LuckyTemplates にオブジェクトをインポートする方法についても説明します。

最初の N 営業日の再考 – DAX コーディング言語ソリューション

最初の N 営業日の再考 – DAX コーディング言語ソリューション

この DAX コーディング言語チュートリアルでは、GENERATE 関数の使用方法とメジャー タイトルを動的に変更する方法を学びます。

LuckyTemplates のマルチスレッド動的ビジュアル手法を使用したインサイトのショーケース

LuckyTemplates のマルチスレッド動的ビジュアル手法を使用したインサイトのショーケース

このチュートリアルでは、マルチスレッド動的ビジュアル手法を使用して、レポート内の動的データ視覚化から洞察を作成する方法について説明します。

LuckyTemplates のフィルター コンテキストの概要

LuckyTemplates のフィルター コンテキストの概要

この記事では、フィルター コンテキストについて説明します。フィルター コンテキストは、LuckyTemplates ユーザーが最初に学習する必要がある主要なトピックの 1 つです。

LuckyTemplates Online Service でアプリを使用する際の最良のヒント

LuckyTemplates Online Service でアプリを使用する際の最良のヒント

LuckyTemplates Apps オンライン サービスが、さまざまなソースから生成されたさまざまなレポートや分析情報の管理にどのように役立つかを示したいと思います。

時間の経過に伴う利益率の変化を分析する – LuckyTemplates と DAX を使用した分析

時間の経過に伴う利益率の変化を分析する – LuckyTemplates と DAX を使用した分析

LuckyTemplates でのメジャー分岐や DAX 数式の結合などの手法を使用して、利益率の変化を計算する方法を学びます。

DAX Studio でのデータ キャッシュのマテリアライゼーションのアイデア

DAX Studio でのデータ キャッシュのマテリアライゼーションのアイデア

このチュートリアルでは、データ キャッシュの具体化のアイデアと、それが結果を提供する際の DAX のパフォーマンスにどのように影響するかについて説明します。

LuckyTemplates を使用したビジネス レポート

LuckyTemplates を使用したビジネス レポート

これまで Excel を使用している場合は、ビジネス レポートのニーズに合わせて LuckyTemplates の使用を開始するのに最適な時期です。

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて