Python における Self とは: 実際の例
Python における Self とは: 実際の例
複数の変数で構成されるデータ セットを操作する場合、それらがどのように異なり、相互に作用するかを理解できることが最善です。このチュートリアルでは、Python で Seaborn 関数を使用して、変数の分布の代替を視覚化する方法を説明します。このチュートリアルの完全なビデオは、このブログの下部でご覧いただけます。
目次
Python で Seaborn 関数を使用する
Seaborn 内で利用できる MPG データ セットでこれを実証します。それでは、必要なパッケージと必要なデータをインポートしてみましょう。ここでは MPG 変数の分布と、それらがどのように変化するかを見ていきます。これを行うための 2 つの一般的な方法は、ヒストグラムと箱ひげ図です。
そこでdisplot関数(配布用DIS)を使ってみます。次に、それがどのデータセットであるか、そしてどの変数を X 軸に配置するかを指定する必要があります。これで配布が完了しました。
これはかなり良いですね。全体の分布や形状が非常に見やすくなります。ただし、この分布の視覚化にはいくつかの欠点があります。1 つは、使用しているビンの数がおそらく任意であるということです。もう 1 つは、変数の平均が必ずしも即座にわかるとは限らないということです。
Seaborn の良いところは、必要な変数、場所、使用するデータセットを設定したら、プラグアンドチャグで新しいビジュアライゼーションを作成できることです。次に、箱ひげ図に進みます。箱ひげ図はビンを使用しません。
ここでの考え方は、四分位値、具体的には中央値を明確に確認でき、他の四分位値も確認できるということです。外れ値があることがわかります。これは非常に正確なプロットです。箱ひげ図の問題は、一般に多くのビジネス ユーザーがおそらく気にしない事柄を正確に扱っていることです。
したがって、このプロットは、統計に興味のない人にとっては、多くの価値を実際に理解するのが少し難しいです。繰り返しますが、データを集約しているため、多くの詳細が失われています。これがどのようなものかを正確に知るのは困難です。異常値があることがわかります。ほとんどの値がここにあることがわかります。ヒストグラムを使用すると、より直感的にそれを確認できます。
これらは両方とも良いプロットです。どちらにもそれぞれの目的があります。Seaborn を使用して視覚化するいくつかの代替案を見てみましょう。この変数の分布には MPG を使用することにします。
箱ひげ図と同様に、ここでも中央値が明確にマークされていることがわかります。四分位範囲も表示され、全体の分布がどのようになっているかをより詳しく知ることができます。これもヒストグラムのようなものです。これは、カーネル密度推定プロットまたは KDE プロットと呼ばれます。ヒストグラムの滑らかなバージョンです。任意のビニングは使用していません。ここではすべてが連続した範囲に平滑化されます。
これはこれら 2 つのアプローチのハイブリッドのようなもので、いくつかの欠点を実際に解決します。ただし、視聴者によっては、これを見るのに本当に苦労するかもしれません。彼らはそれに慣れていないかもしれませんが、従来のアプローチにいくつかの利点があります。
このアプローチでは、データを集計しません。個々の点がすべてプロットされます。これには散布図の要素が必要ですよね? 散布図について考えると、X 座標と Y 座標上のすべての個々の点がプロットされます。
最後に、ストリッププロットがあります。ここで行っているのは、その分布を取得し、ランダムに分散していることです。これはランダムなプロセスです。私たちはもうそのような分布形態を作ろうとしているわけではありません。これの問題は、これらすべての塊が互いに衝突していることです。そのため、何をしようとしているかによっては、それが良くない可能性があります。おそらくグループごとに色を付けたい場合など、そのためのオプションがあります。
ジッターを 0.25 に変更すると、ジッターを増加させると、これらのポイントがもう少し分散されることがわかります。
ただし、実行するたびに、見た目が少しずつ異なります。したがって、それを取り除いて毎回同じにしたい場合は、numpy を np としてインポートできます。これが行うことは、いわゆるランダム シードの設定です。
乱数に関係する何かを実行するたびに、同じ乱数が使用されます。再実行しても状況がランダムに変わるわけではありません。これは、実行しているあらゆる種類のシミュレーションに適している可能性があります。これは、この視覚化を使用したデータ サイエンスや分析でもよく起こります。したがって、このプロットを実行するたびに、同じ外観が得られることになります。
ここに Y 原点を追加することもでき、二変分布を作成していることがわかります。走行距離分布を取得し、それを出発地ごとにセグメント化します。
LuckyTemplates で Python スクリプトを使用する方法
LuckyTemplates での Python スクリプト
ProfileReport() を使用した Pandas のデータ レポート データセット | LuckyTemplates の Python
結論
これらは、1 つの変数の分布を視覚化するための代替手段です。それらにはすべて長所と短所があります。これは、箱ひげ図やヒストグラムを決して使用しないと言っているわけではありませんが、表示しようとしているものに応じて、他のオプションがいくつかあると言っているだけです。
Python で Seaborn 関数を使用する場合、これらはすべて他のものと同じくらい簡単に作成できます。Pythonについてさらに詳しく知りたい場合は、以下のリンクをチェックしてください。
ではごきげんよう!
Python における Self とは: 実際の例
R の .rds ファイルからオブジェクトを保存および読み込む方法を学習します。このブログでは、R から LuckyTemplates にオブジェクトをインポートする方法についても説明します。
この DAX コーディング言語チュートリアルでは、GENERATE 関数の使用方法とメジャー タイトルを動的に変更する方法を学びます。
このチュートリアルでは、マルチスレッド動的ビジュアル手法を使用して、レポート内の動的データ視覚化から洞察を作成する方法について説明します。
この記事では、フィルター コンテキストについて説明します。フィルター コンテキストは、LuckyTemplates ユーザーが最初に学習する必要がある主要なトピックの 1 つです。
LuckyTemplates Apps オンライン サービスが、さまざまなソースから生成されたさまざまなレポートや分析情報の管理にどのように役立つかを示したいと思います。
LuckyTemplates でのメジャー分岐や DAX 数式の結合などの手法を使用して、利益率の変化を計算する方法を学びます。
このチュートリアルでは、データ キャッシュの具体化のアイデアと、それが結果を提供する際の DAX のパフォーマンスにどのように影響するかについて説明します。
これまで Excel を使用している場合は、ビジネス レポートのニーズに合わせて LuckyTemplates の使用を開始するのに最適な時期です。
LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて