1. 主要ページへ移動
  2. メニューへ移動
  3. ページ下へ移動

QES ブログ

記事公開日

日本語はNG? FabricのデータフローGen2でレイクハウスへ書き戻す際の注意点と実務のコツ

  • このエントリーをはてなブックマークに追加

この記事のポイント

Microsoft Fabricにおいてノンプログラミングでデータ加工を担う「データフローGen2(Dataflow Gen2)」の基本的な使い方と、データをレイクハウスへ同期する実践的な手順を解説します。ExcelのPower Queryと同じ感覚で直感的に操作できる利便性を紹介しつつ、筆者が独自の検証環境で遭遇した、同期時の「テーブル名」に関する重大な注意点(仕様上の罠)と具体的な回避策を共有します。

  • ノンプログラミングでのデータクレンジング:
    1行目をヘッダーとして昇格させる処理や不要な列の削除など、データ分析のパフォーマンス低下を招く要因を画面上のクリック操作だけで自動化・解決する方法を解説しています。
  • レイクハウス(Lakehouse)へのデータ同期:
    Power Queryエディターで整形したデータを、出力先として指定した作成済みの「レイクハウス」へスムーズに同期・書き戻しを行う手順を示しています。
  • 【重要】日本語テーブル名が招く「正体不明」フォルダの罠:
    筆者の検証により、同期先のテーブル名を日本語(例:「売上データ」)にすると、Delta Lake形式の内部仕様によりレイクハウス側で正しく認識されずフォルダ化する挙動を確認しました。対策として、必ず英語(例:Sales_Data)で命名すべき一次情報を提示しています。

はじめに

前回の記事では、「ショートカット機能」を使って外部ソースのデータをコピーせずにレイクハウスへ繋ぐ方法を解説しました。
データがつながったら、次はそのデータを「分析しやすい形に整える(クレンジング)」必要があります。

今回は、Fabricでデータ整形を担う「データフローGen2」の具体的な使い方と、私が実際に検証する中で遭遇した「絶対に知っておくべき注意点(罠)」をご紹介します。

データフローGen2(Dataflow Gen2)とは?

データフローGen2とは、一言で言えば「Webブラウザ上で動く、超強力なノンプログラミングデータ加工ツール」です。

Excelの「Power Query」を使ったことがある方なら、まったく同じ感覚で直感的に操作できます。
行や列の削除、型の変更、データの結合といった複雑な処理を、コードを1行も書かずに画面をクリックしていくだけで自動化できます。

なぜデータフローGen2でのデータ整形が重要なのか?

生のデータ(CSVやExcel、外部APIから取得したデータなど)は、多くの場合、システムが読み込みやすい形になっていません。

 ・1行目が空白だったり、タイトル行になっていて列名がずれている
 ・分析に使わないシステムIDやログ用タイムスタンプなどの「不要な列」が大量にある

これらをそのままレイクハウス(Lakehouse)やデータウェアハウス(DataWarehouse)に読み込んでしまうと、ストレージの無駄遣いになるだけでなく、後続のレポート作成(Power BIなど)でのパフォーマンス低下を招きます。
Dataflow Gen2を使えば、ローコードでこれらの課題を瞬時に解決できます。

実践!データをきれいに整形してレイクハウスへ同期する手順

Fabricのワークスペースから「データフローGen2」を新規作成します。
「データを取得」をクリックし、前回用意したレイクハウスのデータ(またはショートカットしたデータ)を選択します。

Power Queryエディターが開くので、ヘッダーの修正や不要な列の削除など、必要な整形を行います。



ポイント:ヘッダーの修正(1行目をヘッダーとして昇格)
CSVファイルなどを読み込んだ際、本来「列名」になってほしい1行目が、データ行(Row 1)として扱われてしまい、列名が Column1, Column2 のようになってしまうことがあります。

データフローGen2のエディタ画面を開きます。
リボンメニューの「ホーム」タブ、または「変換」タブにある「1行目をヘッダーとして使用」をクリックします。
これだけで、1行目のデータが自動的に列名へと昇格し、各列のデータ型も自動で再評価されます。





整形が終わったら、画面右下にある「データの同期先」をクリックし、出力先として作成済みの「レイクハウス」を指定します。

【重要】テーブル名を日本語にするとどうなる?「正体不明」フォルダの罠

ここで、私が検証中に最も頭を悩ませた重要な注意点をお伝えします。
データの同期先を設定する際、出力される「テーブル名」を入力する項目があります。

ここを「売上データ」などの日本語のまま設定して処理を実行してはいけません。
日本語のまま完了すると、レイクハウス側で正しくテーブルとして認識されず、「正体不明」のフォルダの中にデータが格納されてしまうという挙動が発生します。
こうなると、その後のセマンティックモデル作成やPower BIでのレポート作成でデータをうまく読み込めなくなってしまいます。

対策はシンプルで、「テーブル名を必ず英語(例:Sales_Data)にする」ことです。
一見、日本語で綺麗に管理したくなりますが、Fabricの内部(Delta Lake形式の管理構造)の仕様上、現時点では英語での命名が安全です。
皆さんが試される際は、ぜひここを英語に設定してください。

おわりに

データフローGen2を使えば、驚くほど簡単にデータを整形できます。テーブル名の英語ルールさえ守れば、レイクハウスへの書き戻しもスムーズです。

データが綺麗になったら、次はそのデータをどう蓄積・管理していくべきか?
次回は、Fabricのデータ保存先である「レイクハウス」と「データウェアハウス」の違いについて、設計の視点から解説します!

Fabricのデータ保存先、どこにする?レイクハウス(Lakehouse)とデータウェアハウス(Data Warehouse)の違いと選び方
https://www.qes.co.jp/media/microsoft/fabric/a971


※このブログで参照されている、Microsoft、Windows、その他のマイクロソフト製品およびサービスは、米国およびその他の国におけるマイクロソフトの商標または登録商標です。

  • このエントリーをはてなブックマークに追加

お問い合わせ

Contact

ご質問やご相談、サービスに関する詳細など、何でもお気軽にご連絡ください。下記のお問い合わせフォームよりお気軽に送信ください。

お問い合わせ

資料ダウンロード

Download

当社のサービスに関する詳細情報を掲載した資料を、下記のページよりダウンロードいただけます。より深く理解していただける内容となっております。ぜひご活用ください。

資料ダウンロード