Teasure Data の Bulk Import 方法
こんなときに便利
手元にある大量のレコードを持つデータを Treasure Data にぶち込みたいとき・ぶち込む必要があるとき。
準備
Import する CSV のカラム名とカラム数を、Import 先のテーブルと一致させておく (システム固定の time カラムは除く)。
手順
1. 「Catalog」ページの「Upload」ボタンをクリックする
画面右上 (2020/05/29 現在) の「Upload」ボタンをクリックします。
2. Import する CSV をファイルを選択する
「Browser」ボタンからあらかじめ準備しておいた CSV または TSV ファイルを選択したください。
3. プレビュー表示後「Advanced Settings」をクリックする
CSV がアップロードされると内容がプレビューされます。データの内容からある程度自動で String や Date などの型が設定されますが、テーブルのカラムと一致していない場合があるので「Advanced Settings」からカラムの型や Import 時の細かいオプションを確認・選択します。
4. プルダウンからカラムの型を選択する
「SCHEMA SETTINGS」エリアから適切なカラムの型を確認・選択してください。選択し終えたら「Save」ボタンをクリックしてプレビュー画面に戻ります。
5. 再度プレビューされた内容を確認して「Save」ボタンをクリックする
カラムが先程選択した型通りに変更されていることを確認した後、「Save」ボタンをクリックしてください。
6. Import 先スキーマを選択する
Import 先のスキーマを選択してください (ログインしているアカウントの Write 権限があるスキーマのみ)。
新しいテーブルを作成しつつ Import することも可能のようですが、あらかじめ準備しておくほうが確認する手間も省けるので、先にスキーマとテーブルを準備しておくことをおすすめします。
7. Import 先テーブルを選択する
Import 先のスキーマを選択してください (ログインしているアカウントの Write 権限があるテーブルのみ)。
8. Import 方法を選択する
2 種類方法があります。
- Append: 既存のレコードはそのままに、新しいレコードとして INSERT されます。
- Replace: Import 対象テーブルに既存のレコードが存在する場合、全て DELETE されてから INSERT されます。要は中身が入れ替わります。
9. タイムゾーンを選択する
Immport 時間のタイムゾーンを選択します。おおよそ「Asia/Tokyo」一択だと思いますが、サービスの性質に従って適宜変更してください。テーブル作成時に固定で生成されている「time」カラムにタイムゾーンに従った実行時間が unixtime で入ります。
10. 「Start Upload」ボタンをクリックする
「Start Upload」ボタンをクリックすると Job 実行画面に切り替わり、Bulk Import が始まります。
カラム数や容量にもよると思いますが、おおよそ 9 秒ぐらいで約 15,000 レコードの Import が終わりました。