『実践的データ基盤への処方箋』を読んだ
データ収集システムの開発をしているので参考になりそうな書籍を読んだ。
最近はお仕事でデータ収集クローラーの開発を進めている。
やることは単純で、API から定期的にデータを取得して BigQuery に保存し、運用チームが利用しやすいビューを作成するというもの。
単純といってもお作法が分かってなかったので本書を読むことにした。
内容は大きく分けて以下の 3 つに分かれている。
-
データ活用のためのデータ整備
-
データ基盤システムの作り方
-
データ基盤を支える組織
基本がわかった
自分が一番困っていたことは「データをどう整備するか」なので、特に 1 章が参考になった。
初めてデータ収集クローラーを作ったときは以下のような点をまったく意識しておらず、クローラー側でデータの加工していた。これにより、クローラーを拡張するのが難しくなってしまっていた。
- データソースとデータレイクが一対一対応になる
- データマートとユースケースが一対一対応になる
- データレイクは元のデータをそのまま入れる
などのルールは意識したい。
また、サービスの品質水準を表現したサービスレベル(ユースケース、連絡先、約定事項など)を明示的に記述してこなかったので、今後クローラーを開発する際はドキュメントに記述することにしたい。
SQL からのデータ取得方法は今後役に立つかも
取得するデータはほぼすべて API からテキストデータで取得できるうえ、データ量もそれほど多くないので、取得方法自体を工夫する必要はあまりない。
そのため、2 章の内容は今やっている仕事に直接は役立たなかった。
ただ、他チームが持っている大量のデータを利用することはあったので、チーム横断でデータ整備をするときに参考になるかもしれない。
組織の話はあまりピンと来てない
1, 2 章とは違って 3 章になると急に視座が上がるというか、「データを活用できる組織になるには」といった大きな話になる。データ分析を推進していくぞという域まで自分は達してないので、遠いところの話のように感じる。
こういう話を身近に感じて、データを元に意思決定できているか? 役立っているか? というのを考えられれば、依頼を受けるだけじゃなくて提案できる状態になるのではと思う。
勧めるなら
データ基盤と呼べるほどの規模じゃなくても、とりあえずデータを集めて運用する人が自由に使える状態するという仕事をやるなら読んでも良いと思う。
ただ、やることが明らかで、知りたいことが How に寄っているなら過食部は少ないかも。