前々回の投稿では、大人気なBIツール(データ可視化ツール)Tableau Desktopを紹介しました。

参考コラム:Tableauとは?〜可視化分析〜 データから価値ある情報を発見し、データ処理も見える化!

“Tableau” と聞くと、皆はどうしても、データを読み込んでグラフを作り、それらを組み合わせて、ダッシュボードを作成する機能を果たすTableau Desktopの方を考えることが多いかと思います。

以外と知られていないのは、データの整形・前処理を行う「従兄弟」のTableau Prep Builder です。

資料請求でデータサイエンスの基礎が学べる講義を無料プレゼント
  ・講座(G検定・機械学習・データ分析など) 約3時間分

現役プロ講師によるわかりやすい講義

1分で簡単!今すぐ見れます(会員登録→お申込み→講座視聴)

20日間無料で講義を体験!

Tableau Prep Builder とは

Tableau Prep Builder は、分析対象となるデータの前準備を行うためのツールです。

データの前処理は非常に重要です。データ品質に問題がある場合は有用な分析結果を期待できません。よく言われるように、「生データ」の7割以上は“Ready”な状態になっていません。

Tableau Prep Builder(以下Prepと呼ぶ)を用いると、データの結合、分割、置換、変換、不要な文字を除くクリーニングなど、データに対して様々な操作を、ノンプログラミングGUIの上で簡単に行うことができます。Prepにはデータ準備でありがちな問題を解決するスマートな機能が用意されており、後ほど図でお見せします。

しかも、今行っているプロセスを全て可視化しながら作業することができるのが特徴です。データの加工と同時に、信頼性・整合性の確認も行えて、変更に伴う結果を即座に確認可能です。

一連のデータ処理を記述する「データフロー」を構築し、これを特殊なPrep専用の形式のファイルとして保存すると、繰り返し使用可能になります。

プログラミングをしなくても、相当複雑なデータ処理を楽々GUI上でできると、データ利活用を、少なくとも完全にデータエンジニアへ依存しなくても良くなりますね。

以下では、実際Prepを操作している様子を通じて、Prepを使うイメージをより具体的にお伝えします。

Tableau Prep Builderの操作を図で見る

ここでは、Tableau Prep Builder で出来る基本的な操作を一通り紹介します。Prepをどのようにデータの準備に使用できるか、のイメージをしてみてください 。

画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2021-10-26-10.10.07-1024x710.png



【Prepの基本的な構成】

ワークフロー(フロー) :Tableau Prep Builder (以下 ”Prep”) で作る、データに対する処理を記述するファイル のことです。上の図にあるフローペインやプロファイルペインが、フローを構築しデータを視覚的に操作できるキャンバスのような存在です(Desktopのシートと同様)。

ステップ :データに対してアクションを実行するためのノード(操作群)です。 インプット、クリーニング、集計、ユニオン、結合、出力などいくつもの種類があります。ステップを追加する際に、1つ前のステップの間を線でつなぎます。

Prepを使う際には、まずPrep を開きデータを繋ぎます。データに接続し、インプットステップを作成します。Prepには、使用可能なデータへのコネクターが多種あります。例えばCSVのファイルに接続したい場合は下図のように「テキストファイル」を選びます。

画像に alt 属性が指定されていません。ファイル名: image-3.png

データファイルに接続すると、Prep のワークスペースが開きます。主に2つのセクションに分かれているのが分かりますね。

上にあるのは操作が記述されたステップが見える「フローペイン」、下にあるのはデータの入力情報や統計情報が見える部分です。

フローの中でインプットステップを選択すると、関与するデータの取り込みに使用する設定、含まれているフィールド、一部のサンプル値が表示されます。

画像に alt 属性が指定されていません。ファイル名: image-4-1024x572.png

フローにステップを追加するたびに、ワークスペースとデータの詳細表示が変化します。

Prepフローを構築する上で、常にデータの確認と加工を反復しています。

データの整合性を調べながら、状況に応じて、クリーニング、統合、集計など様々なアクションを実行 します。

下図のように、いつでも気になるステップを選択しフローのその段階での中身(データの構成、構造、外れ値やNULL値の有無など)を確認・観察することができます。

画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2021-10-26-10.17.34-1024x545.png

プロファイルペインから、各フィールドの「カード」にある「その他のオプション」メニューより、使用可能な豊富なクリーニングオプションを選択できます。

フィルタ、空白の削除、値の分割、値の置換、フィールド名の変更、など様々な機能をワンクリックでデータ全体に対して実行できます

画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2021-10-26-10.27.28.png

フィールドや値を変更すると、画面左の [変更内容] ペインで追跡できます(下図)。

画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2021-10-26-10.36.48-1024x685.png



例えば、下図の具体例では、[Sales] 列に、通貨コード“USD”が含まれており、ゆえに文字列として解釈されています。

通貨コードを削除し、データ型を数字型に変更することができます。

画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2021-10-26-10.37.19.png

もう1つの操作例:下図は読み込んだ複数のデータファイルを1つのファイルに統合(ユニオン;Union)している様子です。ドラッグ&ドロップだけでこれを実現できます。

画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2021-10-26-10.38.04-1024x561.png



もう1つの操作例です。

下図では、不要なスペースを1つの列の項目から一括に省いています。こうすることで、本来同じ意味のデータが余計なスペースが入っていたために異なるデータとして認識されてしまっていた、という問題が解決されました。

目視で確認しにくいが、フリーテキストは余分なスペースが存在しがちです。

分析する上で、文字列に対する操作を行う前に余分なスペースを排除するのが鉄則です。余計なスペースがあるとフィールドが NULL 値として読み取られるリスクもあります。

画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2021-10-26-10.38.57.png





画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2021-10-26-10.41.05-1024x507.png
画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2021-10-26-10.40.32-1024x543.png

データのクレンジング、前処理を全て終えた後は、「クリーンなデータ」を出力するステップを追加します。

この出力ステップをクリックすると、[出力] ペインが開き、データのスナップショットが表示される ①生成する出力ファイルのタイプを選択 (hyper または csv) ②名前とファイルの保存先を指定 する必要があります。



Prepのフローから出力を生成する形式は2通りあります。

参考:Tableau データ抽出 (.hyper)https://dev.classmethod.jp/business/business-analytics/tableau-105-new-feature-hyper-about/

抽出を第3者に共有する必要がある場合は csv ファイルで出力してください。



フローの実行が完了すると、フローの実行が成功したかどうかと、実行に要した時間がステータス ダイアログに表示されます。

エラーが出る場合はフローの右上に表示され、エラーメッセージに従って修正を行う必要があります。最後に[完了] をクリックしてダイアログを閉じます。

フローの実行が成功すれば、指定した出力フォルダーに分析にこれから使用できる綺麗な処理後のデータを見つけることができます。

画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2021-10-26-10.41.21-1024x443.png





Tableau Prep と Tableau Desktopとの相性

PrepはTableau Desktop と相性抜群です。Prepの出力データはワンクリックで、 Desktop ですぐに開くことができて、そうするとデータ処理を終えたものを即座に分析フローに乗せることができますね。

画像に alt 属性が指定されていません。ファイル名: スクリーンショット-2021-10-26-10.40.02-1024x666.png
データサイエンス(G検定・AI・機械学習・データ分析)

資料請求でデータサイエンスの基礎が学べる講義を無料プレゼント
  ・講座(G検定・機械学習・データ分析など) 約3時間分

現役プロ講師によるわかりやすい講義

1分で簡単!今すぐ見れます(会員登録→お申込み→講座視聴)

20日間無料で講義を体験!

実践的な
Python・データ分析スキル

を身に付けたい方へ

何から手をつけたら良いかわからない

独学で挫折したことがある

専門的な内容で身近に相談できる人がいない

このような悩みをお持ちでしたら
AI Academy Bootcampにご相談下さい!

「目的別学習コース」と「手厚いサポート」

AI Academy Bootcampに無料相談する>>

この記事の著者 ヤン ジャクリン

ヤン ジャクリン (講師紹介はこちら

2015年 東京大学大学院 理学系研究科物理学専攻 修了(理学博士)
2015年 高エネルギー加速器研究機構 素粒子原子核研究所(博士研究員)
2017年 株式会社GRI(現職) 講師 兼 分析官
2019年 Tableau Desktop Certified Associate 資格取得

・英検1級
・TOEFL IBT試験満点

北京生まれ、米国東海岸出身(米国籍)、小学高学年より茨城県育ち。

万物の質量の源となるヒッグス粒子の性質を解明し、加速器実験による新粒子発見に関する研究を行い、国際・国内学会発表20件以上、査読論文5件以上。
10年以上に渡り、幅広い年齢層の学習指導を学習塾や大学などで実施(5科目、英会話、受験指導、素粒子物理など)。
現在は、株式会社GRIにて、データ分析官(データ前処理、可視化分析、マーケティング施策の分析 他)
公開講座および法人研修を多数開設。

講座を見る