ビッグデータを支える技術
書籍リンク
読んだ時期
- 2023-06-01 頃
目的
- 「分散処理」周りにどんな技術があるのか、の概要を確認したくて読んだ
全体的な感想
- 分かったような分かってないような、みたいな気持ちにだけなった(目的通り)
- numpy, pandas などの python ライブラリが 使われるのはこういう文脈なのね、と分かったり
- あとは具体的に触ることがあってから考えよう
- 手を動かしてみたければ 7 章をやってみるのが良さそう
〜〜
以下は読んだとこメモ。関連して調べたことも追記
データパイプライン
- ビッグデータはまず最初に「データレイク」へと格納され
- そこから一部のデータを「データマート」として取り出します
というのが「データパイプライン」の流れ
Hadoop と NoSQL
- Hadoop と NoSQL の関係
- 「NoSQL データベースに書き込み、Hadoop で分散処理する」
- Hadoop
- MapReduce を参考に作られている
- Google で開発された分散処理のフレームワーク
- Hive
- SQL のようなクエリ言語を Hadoop で実行するためのソフトウェア
- MapReduce を参考に作られている
- NoSQL データベース
- データの種類ごとの分類
- キーバリューストア (KVS)
- ドキュメントストア (JSONなど構造を持ったもの)
- ワイドカラムストア
- 代表的なアプリ
- Mong DB : ドキュメントストア
- Cassandra : ワイドカラムストア
- Redis : キーバリューストア
- データの種類ごとの分類
ビッグデータとデータウェアハウス
- エンタープライズデータウェアハウス (EDW)
- データウェアハウス
↑
これ自体はもともとあったが、Hadoop で分散処理するような文脈で、
「ビッグデータ」というキーワードが使われるようになった
・・・
多くのデータウェアハウスは製品として安定した性能を提供するために、
「アプライアンス」といって、抱き合わせて提供される。
データの柔軟性を考えて、以下のような使い分けがされたりするそうだ。
- 増え続けるデータは Hadoop に任せる
- 比較的小さなデータ、重要なデータなどは データウェアハウスに入れる
データ処理のためのクラウドサービス
- クラウド向け Hadoop
- Amazon Elastic MapReduce
- Azure HDInsight
- データウェアハウス
- Google BigQuery : 共有リソース
- Amazon Redshift : 占有リソース