Tableau Prepはデータを分析に適した形に加工するツールで、その処理過程を記録して共有したり再利用したりすることができます。
本ページでは、Tableau Prep Builderでデータの加工の手順を表すフローとそれらを構成するステップについて紹介します。
フローとは?
フローはデータの加工の一連の手順を表すもので、データ入力と加工、出力などの処理のステップで構成されています。Tableau Prepでは、複数のステップを組み合わせたフローを作成することによってデータを加工します。
具体的な例として、Tableau Prep Builderに同梱されているsuperstoreのサンプルフローを観察してみましょう。
フローは左から右に処理が進む様子を表しています。
一番左に起点となる4つのデータ入力アイコンがあるので、ここがデータ入力のステップであることが分かります。4つのエリア別注文ファイルが入力されているようです(1)。
次にそれぞれのファイルのクリーニングをして(2)、ユニオンで一つのデータにまとめています(3)。
一方で真ん中当たりを見ると、返品データを読み込み(4)、クリーニングして(5)、ユニオンした注文データと結合しています(6)。さらにそれをクリーニングして(7)、一旦データを出力しています(8)。
さらに続けて集計をして(9)、入力したノルマデータ(10)をピボットしたデータ(11)と結合(12)、最後にデータを出力しています(13)。
このようにフローとして表現されていると、泥臭いデータ分析の前処理が割と系列立てて見えてくるものですね。
各ステップで実施した処理の内容は、ステップのアイコンをクリックすると表示されるプロファイルペインで確認できます。プロファイルペインには処理の詳細とフィールド毎に値とそれらの頻度分布が表示され、データグリッドでデータの中身を確認することができます。
データを加工する場合には、どんなフィールドがあるのか、データの値は何種類でどういう分布になっているのか、処理を実施した結果どういうデータに変更されたのか等をプロファイルペインで確認しながら進めていきます。
ステップの作成
フローを構成するデータ入力・加工・出力の各ステップの概要を紹介します。
データの接続と入力
Tableau Prep Builderでは、新しくフローを作成したり、保存されたフローファイル(.tfl)を再編集することもできます。
既存のフローを開く場合には、Tableau Prep Builderを起動して「フローを開く」ボタンをクリックしてフローファイルを選択します。
新しくフローを作成する場合には、「データに接続」をクリックしてデータソースに接続後データを入力することから始めます。
Tableau Prep Builderでは多様なデータソースに接続してデータを入力することができます。
データソースに接続して必要なデータをフローペインにドラッグ&ドロップすると、以下のようなデータ入力のアイコンが表示されます。(アイコンの色は変わります。)
実際に接続できるデータソースの種類、やり方に関しては以下のページで紹介していますので是非ご覧ください。
データの加工
Tableau Prep Builderは様々なデータ加工の機能を備えています。
利用する機能に相当するステップをフローに追加することによって実施します。
利用可能な加工のステップは以下になります。
- クリーニング
- 集計
- ピボット
- ユニオン
- 結合
ステップは、追加したい箇所の前ステップにある「+」印をクリックするとリストから選択することができます。
フローの途中にステップを挿入する場合には、挿入したい箇所のフロー線にマウスを重ねると出現する「+」印をクリックしてリストから選択します。
加工のステップを追加すると以下のようなアイコンが表示されます。
左からクリーニング、集計、ピボット、ユニオン、結合のステップを表します。(アイコンの色は変わります。)
それぞれのステップの詳細は以下のページで紹介していますので是非ご覧ください。
データの出力
Tableau Prep Builderでは、フローの最後あるいは中間といった任意の箇所でデータを出力することができます。出力先もファイル、Tableau Server、データベースのいずれかから選択することができます。
データ出力のアイコンはフローペインでは以下のように表示されます。(アイコンの色は変わります。)
具体的なデータの出力方法に関しては以下のページで紹介していますので是非ご覧ください。
本ページでは、Tableau Prep Builderでデータの加工の手順を表すフローの構成と作り方の概要を紹介しました。