not yet

本やゲームの感想など

ビッグデータ入門以前:『ビッグデータを支える技術』

Hadoop, Spark, MapReduce, Amazon Reshift など、キーワードとしては聞いたことがあるものの、それぞれがどういうもので、ビッグデータを処理するシステム全体としてどこに位置するかはよくわかっていない、それくらいの前提知識で読み始めましたが、ちょうど良い感じでした。

ビッグデータを支える技術―刻々とデータが脈打つ自動化の世界 (WEB+DB PRESS plus)

ビッグデータを支える技術―刻々とデータが脈打つ自動化の世界 (WEB+DB PRESS plus)

データの可視化を例に、データを集める箇所、リアルタイムに処理する箇所、定期的に処理する箇所などをデータがどのように流れ、各箇所ではどのような事に気をつけて設計されているかを学ぶことができました。

実際にこれから何かしようという訳ではなかったので、各種システム上の具体的なスクリプトスニペット的な短いもの)や、実際に環境を整えて手を動す箇所は今回は流し読みです。何かやってみたいとは思いつつ、特に分析したいことも今はありませんし、何か見つかったとしてもスモールデータを処理するフレームワークで事足りるだろうなぁ、と。

本当にビッグデータが必要なのか、実は少数サンプルからの具体例で多くの場合は十分な知見が得られるのではないか、と思うことがなくはないのですが、とりあえずデータを取っておいて後で何か見れるようにしておく、というのは後で仮説を検証するためという点でも有意義です。これからもどんどん技術発達が進み、データ収集・分析のコストが下がり続けて、いろいろなデータが気軽に収集、公開、活用できるようになるといいですね。