Python データセット: 反復可能なコードの適用

このブログでは、反復可能なコードまたは関数をPython データセットに適用して、同じタイプの出力を生成する方法を学習します。これにより、さまざまなデータセットから特定のデータを取得する際の効率が向上し、労力が軽減されます。このチュートリアルでは、例として以前に作成した既存のコードを利用します。

また、データセットの元のバージョンの損傷を避けるためにデータセットのコピーを作成する方法、反復可能なコードを使用してライブラリと関数をインポートする方法、およびLuckyTemplates でビジュアライゼーションを作成する方法も学習します。

このブログでは、常にCSVファイルを取得して LuckyTemplates に取り込むことをお勧めします。また、必要な場合に備えて、この CSV ファイルを取り込んで LuckyTemplates に直接配置する方法も説明します。

LuckyTemplates での CSV ファイルの取得
Python データセットのコピーの作成
Python スクリプトの実行によるデータセットの変換
データセットの確認
反復可能なコードを使用したライブラリと関数のインポート
データテーブルの生成
結論

LuckyTemplates での CSV ファイルの取得

CSV ファイルを LuckyTemplates に取り込むには、最初にホームリボンの [データの取得] メニューをクリックする必要があります。

Python データセット: 反復可能なコードの適用

クリックすると、ドロップダウンメニューが表示され、メニューから「 Text/CSV 」オプションを選択する必要があります。

Python データセット: 反復可能なコードの適用

「Text/CSV」オプションを選択すると、LuckyTemplates に取り込みたいファイルを選択できるウィンドウが開きます。この例では、IMDB データセットファイルを使用してみましょう。

Python データセット: 反復可能なコードの適用

IMDB Dataset.csvファイルを開くと、そのファイル内のデータを表示する別のウィンドウが表示されます。このファイルには大量のデータが含まれているため、一部のデータのみがプレビューされます。

このファイルで最初に行うことは、ファイルを変換することです。これを行うには、ウィンドウの右下にある「データの変換」オプションをクリックするだけです。

Python データセット: 反復可能なコードの適用

Python データセットのコピーの作成

このデータセットに変更を加える前に、元のデータセットのコピーを作成することが重要です。これを行うには、データセットを 右クリックするだけです。

Python データセット: 反復可能なコードの適用

次にメニューから「コピー」を選択します。

Python データセット: 反復可能なコードの適用

最後に、クエリパネルを右クリックし、オプションから「貼り付け」を選択します。

Python データセット: 反復可能なコードの適用

これらの手順を適用すると、元のIMDB データセットのコピーが[クエリ]パネルに表示されます。

Python データセット: 反復可能なコードの適用

Python スクリプトの実行によるデータセットの変換

CSV ファイルを変換すると、大量の Python データセットを小さなデータセットに分割できます。これを行うには、このファイルに Python スクリプトを適用します。

ただし、まずヘッダーが適切に並んでいることを確認する必要があります。「ホーム」メニューをクリックし、「最初の行をヘッダーとして使用」オプションを探してクリックします。

Python データセット: 反復可能なコードの適用

「先頭行をヘッダーとして使用」オプションをクリックすると、ヘッダーが前の最初の行のデータ「review」と「センチメント」に変更されました。

Python データセット: 反復可能なコードの適用

次に、[変換]メニューに移動し、オプションの [スクリプト]グループの [ Python スクリプトの実行] オプションをクリックします。

Python データセット: 反復可能なコードの適用

その後、「Python スクリプトの実行」ウィンドウが表示されます。このウィンドウでは、使用している現在のファイルを変換するために任意の Python スクリプトを実行できます。この例では、次のコードを実行してデータセットを小さくします。

Python データセット: 反復可能なコードの適用

データセットに対して.iloc関数を使用して、 IMDB データセットから特定の行と列を選択しました。次に、パラメーターで、IMDB データセットの最初の500 行すべてとすべての列を選択しました。「 dataset 」という名前の変数に保存しました。

スクリプトを実行すると、前のステップで作成した変数である「データセット」が表示されるはずです。これには、Python スクリプトを使用して変更したデータが含まれています。

Python データセット: 反復可能なコードの適用

データセットの確認

データセットテーブルを開くには、[値] 列の下の[テーブル]をクリックするだけです。

Python データセット: 反復可能なコードの適用

このデータセットが500 行まで減少していることがわかります。

Python データセット: 反復可能なコードの適用

Pythonデータセットを 500 行に分割したので、次に行うことは、必要なライブラリをインポートすることです。IMDB データセットの内容を変更したときと同じ手順を使用してこれを行います。これは、特定のシナリオでより少ない変更でコードを管理できるようにするためです。

反復可能なコードを使用したライブラリと関数のインポート

ライブラリをインポートするには、ノートブックに戻って必要なライブラリをコピーしましょう。このチュートリアルの前に、これからコピーするライブラリをすでに作成していることに注意してください。これらを再利用しているのは、繰り返し可能なコードとして関数を使用する方法について明確に理解していただくためです。

Python データセット: 反復可能なコードの適用

ライブラリをコピーしたら、「Pythonスクリプトの実行」ウィンドウに貼り付けます。スクリプトの最後に「 from collections import Counter 」という行を忘れずに含めてください。

Python データセット: 反復可能なコードの適用

次に、ノートブックからデータクリーニング関数をコピーし、 LuckyTemplates のPythonスクリプトに追加します。

Python データセット: 反復可能なコードの適用

ライブラリの下に追加します。

Python データセット: 反復可能なコードの適用

追加した関数を呼び出すためのコードもコピーします。

Python データセット: 反復可能なコードの適用

次に、それを LuckyTemplates の Python スクリプトに貼り付けます。

Python データセット: 反復可能なコードの適用

データテーブルの生成

データクリーニング関数を呼び出すコードを追加したので、「 df2 」を「 dataset」に、「 title 」を「 review 」に変更する必要があります。データセットに加えた変更のため、これを行いました。

500行のデータを「 dataset 」に保存したため、「df2」を「dataset」に変更しました。次に、「タイトル」については、列のヘッダーを変更した結果、「レビュー」に更新されました。

これらのコードを追加すると、ワード頻度のdata1 、バイグラム頻度のdata2、およびトライグラム頻度のdata3という 3 つのテーブルを取得または生成できるはずです。

Python データセット: 反復可能なコードの適用

この変更されたIMDB データセット (2)の別のコピーを作成して、後で別のテーブルを開くこともできます。

Python データセット: 反復可能なコードの適用

IMDB データセット (2)で、 data1 テーブルを開いてみましょう。

Python データセット: 反復可能なコードの適用

data1 テーブルを開くと、単語のリストと頻度が表示されます。

Python データセット: 反復可能なコードの適用

ご覧のとおり、Jupyter Notebook から取得した反復可能なコードを使用して、メインデータセットから特定の手順を実行できます。これらの反復可能なコードを使用すると、コードを再度入力することなく、Python データセットを変換し、単語の頻度、バイグラムの頻度、およびトリグラムの頻度のテーブルを生成できます。

IMDB データセット (3)で、 data2 テーブルを開いてバイグラム頻度を確認してみましょう。

Python データセット: 反復可能なコードの適用

バイグラム頻度表では、リストに「 br 」が含まれていることがわかります。これはおそらく HTML コードに関連付けられています。単純に戻って何か他のものを追加することもできますが、このチュートリアルではそれを行いません。

反復可能なコードを使用してデータが読み込まれたので、LuckyTemplates でデータの視覚化を開始できます。たとえば、各単語の出現頻度を示す棒グラフです。

Python データセット: 反復可能なコードの適用

Python ユーザー定義関数 | LuckyTemplates での Python の使用の概要| LuckyTemplates
の Python リストと For ループ
データセットと文字列関数

結論

要約すると、反復可能なコードは、データセットに対して特定の手順を少ない労力で実行するのに役立ちます。反復可能なコードを利用して LuckyTemplates で Python データセットを変換する方法を学習しました。.iloc 関数を使用して、データセットの変更時に選択する行と列を指定することもできました。

さらに、データセットのコピーを作成し、棒グラフを使用して視覚化を作成しました。この視覚化は、反復可能なコードを使用して作成および変更した Python データセットに基づいています。

ではごきげんよう、

ガリム