『Google Cloud ではじめる実践データエンジニアリング入門』を読んだ
By gushernobindsme at
モチベーション
- Dataflow 周りのレビューに参加しているが、雰囲気でやっている感じがありなんとかしたい
- BigQuery もなんとなくやっていて、べし・べからず的なことがわからない
- データ分析の一般的な知識についても自信がないので補強しておきたい
で、『ビッグデータを支える技術』とか読めばいいのかなあ、とぼんやり思っていたところ、ちょうどドンピシャな本が出版されたので読んでみました。
本書の内容
- データ分析基盤に求められる要件について概観できる
- 各種要件を実現するために Google Cloud のどのサービスを使えば良いかがわかる。サービスのアーキテクチャの概要も掴める
- スケールするデータ分析基盤を Google Cloud 上に構築するための具体的な方法がわかる
という感じでかなり満足度の高い一冊でした。
読書メモはこんな感じ。
主に BigQuery と Dataflow について知りたかったので、熟読したのはこの辺り。
他の部分については一回読んで終わりにしちゃったのですが、
- Data Catalog を使ったメタデータ管理
- Cloud Composer、Cloud Data fusion によるワークフロー管理
- セキュリティとコスト管理の設計
- Looker の使い方と使いどころ
- BigQuery 上での機械学習
などなど、面白いテーマが盛り沢山でした。
データ周りについて考えることが増えた時に、改めて読み返したい一冊。
まとめ
これからデータ分析の構築に関わる人も、すでに社内にあるデータ分析基盤の改善に取り組みたい人も、一度手に取ってみるといいんじゃないでしょうか。