試験公開中

このエントリーをはてなブックマークに追加

ビッグデータ分析・活用のためのSQLレシピ

マイナビ出版

4,180円 (3,800円+税)

著者が普段の業務で実際に作成しているレポートやSQLのコードをより汎用化してまとめた、ビッグデータ時代のSQL活用術・レシピ集。「データの加工」「売上の把握」「ユーザーの把握」「Webサイト内のユーザー行動の把握」「異常値の検出」「検索機能の評価」「レコメンド」など、具体的なシーン別に、実践的な手法とノウハウを解説しています。

関連サイト

本書の関連ページが用意されています。

内容紹介

ビッグデータ時代のSQL活用術・レシピ集

本書は、著者が普段の業務で実際に作成しているレポートやSQLのコードをより汎用化し、レシピ集としてまとめたものです。「データの加工」「売上の把握」「ユーザーの把握」「Webサイト内のユーザー行動の把握」「異常値の検出」「検索機能の評価」「レコメンド」など、具体的なシーン別に、実践的な手法とノウハウを解説しています。

●読者対象

本書では、アクセス解析等を担当する社内の分析担当者と、実装を行うエンジニアの双方を対象として、下記の情報を提示します。

・データ加工の手法
・分析に使用するSQL
・レポーティング・分析の手法

分析担当者であれば、アクセス解析ツールが提供する指標やフィルタがなくても、それ以上のことを自らで実践できるようになること、エンジニアであれば、分析業務を十分に理解して、分析担当者や経営層に対して、適切な情報提供やレポート提出、そして助言できるようになることを、目指しています。

●構成

1 ビッグデータ時代に求められる分析力とは
2 本書で扱うツールとデータ群
3 データ加工のためのSQL
4 売上を把握するためのデータ抽出
5 ユーザーを把握するためのデータ抽出
6 Webサイトでの行動を把握するためのデータ抽出
7 データ活用の精度を高めるための分析術
8 データを武器にするための分析術
9 知識に留めず行動を起こす

Chapter1~2は導入部で、Chapter1は基本を解説し、Chapter2で本書で扱うデータやミドルウェアについて説明しています。

Chapter3~8では、具体的なSQLを用いたコード例とともに、ビッグデータ活用の手法について紹介します。

Chapter3では基礎的なSQLの記述やデータ加工の手法について解説し、続くChapter4~8でデータ活用における具体的なシーン別に実践的な「分析手法」と「SQL」を解説しています。

Chapter9ではまとめとして、本書の提供する内容が知識で留まらないよう、データの活用の事例やヒントを紹介します。

●本書で扱うミドルウェア

PostgreSQL、Apache Hive、Amazon Redshift、Google BigQuery、SparkSQLで動作確認を行っています。

書誌情報

  • 著者: 加嵜長門, 田宮直人(著), 丸山弘詩(編集)
  • 発行日: (紙書籍版発行日: 2017-03-27)
  • 最終更新日: 2017-03-27
  • バージョン: 1.0.0
  • ページ数: ページ(PDF版換算)
  • 対応フォーマット: PDF
  • 出版社: マイナビ出版

対象読者

著者について

加嵜長門

株式会社DMM.comラボ所属。慶應義塾大学大学院 政策・メディア研究科修士課程修了。大学院や学生ベンチャーにて、マルチメディアデータベースを対象とした検索やレコメンドアルゴリズムの研究およびサービス開発に従事し、現在DMM.comラボではビッグデータ活用基盤の構築に携わり、SparkやSQL on Hadoopを用いたレコメンド機能、ビッグデータ活用の研究開発を担当。 共著に『詳解Apache Spark』(技術評論社)。

田宮直人

データコンサルタント。エンジニアとして大手新聞社の関連サービス、求人サービス、コミュニティサービスの開発に携わり、株式会社サイバーエージェント在籍時にデータアナリストへ転身、株式会社DMM.comラボではマーケティング開発部マネージャーとしてビッグデータ部を立ち上げる。現在はフリーランスとして、データの解析のみならず、データ解析環境の設計・構築、ログの設計、レコメンドAPIの作成など、データに関連する業務全般を担当している。

丸山弘詩

書籍編集者。早稲田大学政治経済学部経済学科中退。国立大学大学院博士後期課程(システム生産科学専攻)編入、単位取得の上で満期退学。大手広告代理店勤務を経て、現在は書籍編集に加え、さまざまな分野のコンサルティング、プロダクトディレクション、開発マネージメントなどを手掛ける。著書は『スマートフォンアプリマーケティング 現場の教科書』(マイナビ出版刊)など多数。

目次

Chapter1 ビッグデータ時代に求められる分析力とは

  • 1 データを取り巻く環境の変化
  • 2 さまざまな課題
  •  分析担当者の課題
  •  エンジニアの課題
  •  職種を越えた横断的な分析力を身につける

Chapter2 本書で扱うツールとデータ群

  • 1 システム
  •  PostgreSQL
  •  Apache Hive
  •  Amazon Redshift
  •  Google BigQuery
  •  SparkSQL
  • 2 データ
  •  データの種類
  •  業務データ
  •  ログデータ
  •  2つのデータを利用することで生まれる価値

Chapter3 データ加工のためのSQL

  • 1 一つの値に対する操作
  •  コード値をラベルに置き換える
  •  URLから要素を取り出す
  •  文字列を配列に分解する
  •  日付やタイムスタンプを扱う
  •  欠損値をデフォルト値に置き換える
  • 2 複数の値に対する操作
  •  文字列を連結する
  •  複数の値を比較する
  •  2つの値の比率を計算する
  •  2つの値の距離を計算する
  •  日付/時刻の計算をする
  •  IPアドレスを扱う
  • 3 1つのテーブルに対する操作
  •  グループの特徴を捉える
  •  グループの中での順序を扱う
  •  縦持ちのデータを横持ちに変換する
  •  横持ちのデータを縦持ちに変換する
  • 4 複数のテーブルに対する操作
  •  複数のテーブルを縦に並べる
  •  複数のテーブルを横に並べる
  •  条件のフラグを0と1で表現する
  •  計算したテーブルに名前を付けて再利用する
  •  擬似的なテーブルを作成する

Chapter4 売上を把握するためのデータ抽出

  • 1 時系列に沿ってデータを集約する
  •  日別の売上を集計する
  •  移動平均を用いて日別の推移を見る
  •  日別の売上を集計して、当月売上の累計を求める
  •  月別の売上を集計し、昨対比を求める
  •  Zチャートで業績の推移を見る
  •  売上を把握するための大事なポイント
  • 2 多面的な軸を使ってデータを集約する
  •  カテゴリ別の売上と小計を計算する
  •  ABC分析で売れ筋とそうでないものを分ける
  •  ファンチャートで商品の売れ行きの伸び率を見る
  •  購入価格帯を集計する

Chapter5 ユーザーを把握するためのデータ抽出

  • 1 ユーザー全体の特徴・傾向を見つける
  •  ユーザーのアクション数を集計する
  •  年齢別区分を集計する
  •  年齢別区分ごとの特徴を抽出する
  •  ユーザーの訪問頻度を集計する
  •  ベン図でユーザーのアクションを集計する
  •  デシル分析でユーザーを10段階のグループに分ける
  •  RFM分析でユーザーを3つの視点でグループ分けをする
  • 2 時系列に沿ったユーザー全体の状態変化を見つける
  •  登録数の推移、傾向を見る
  •  継続率、定着率を算出する
  •  継続、定着に影響すると見られるアクションを集計する
  •  アクション回数に応じた定着率を集計する
  •  利用日数に応じた定着率を集計する
  •  ユーザーの残存率を集計する
  •  訪問頻度からユーザーの属性を定義し集計する
  •  訪問種別を定義し、成長指数を集計する
  •  指標を改善する手順を身につける
  • 3 時系列に沿ったユーザー個別のアクションを分析する
  •  ユーザーのアクション間隔を集計する
  •  カートに追加後、購入されているか把握する
  •  登録からの売上を経過日数別に集計する

Chapter6 Webサイトでの行動を把握するためのデータ抽出

  • 1 サイト全体の特徴・傾向を見つける
  •  日次の訪問回数・訪問者数・ページビューを集計する
  •  ページ毎の訪問回数・訪問者数・ページビューを集計する
  •  流入元別に訪問回数やCVRを集計する
  •  アクセスされる曜日、時間帯を把握する
  • 2 サイト内のユーザーの行動を把握する
  •  入口ページと出口ページを把握する
  •  離脱率、直帰率を計算する
  •  成果に結びつくページを把握する
  •  ページの価値を調べる
  •  検索条件毎のユーザー行動を可視化する
  •  フォールアウトレポートを用いてページ遷移を可視化する
  •  サイト内のユーザーフローを把握する
  •  ページを最後まで見ている割合を集計する
  •  ユーザー行動の全体像を可視化する
  • 3 エントリーフォームを最適化する
  •  エラー率を集計する
  •  入力~確認~完了までの遷移率を集計する
  •  フォーム直帰率を集計する
  •  エラーが発生している項目、内容を集計する

Chapter7 データ活用の精度を高めるための分析術

  • 1 データ加工による新たな切り口を作る
  •  IPから国、地域を補完する
  •  都道府県に隣接都道府県情報を付与する
  •  土日・祝日を判断できるようにする
  •  一日の集計範囲を変更する
  • 2 異常値を検出する
  •  データの分布を計算する
  •  クローラーを除外する
  •  データの妥当性を確認する
  •  特定のIPからのデータを除外する
  • 3 データの重複を検出する
  •  マスタデータの重複を検出する
  •  ログの重複を検出する
  • 4 複数のデータセットを比較する
  •  データの差分を抽出する
  •  2つのランキングの類似度を計算する

Chapter8 データを武器にするための分析術

  • 1 検索機能を評価する
  •  NoMatch率とそのワードを集計する
  •  再検索率とそのワードを集計する
  •  再検索ワードを分類して集計する
  •  検索離脱率とそのワードを集計する
  •  検索に関する指標を集計しやすくする
  •  検索結果の網羅性を指標化する
  •  検索結果の妥当性を指標化する
  •  検索結果の順位を考慮した指標を計算する
  • 2 データマイニング
  •  アソシエーション分析
  • 3 レコメンド
  •  レコメンドシステムを広義に捉える
  •  このアイテムに興味がある人はこんなアイテムも見ています
  •  あなたにオススメの商品
  •  レコメンドシステムを改善するポイント
  •  レコメンド表示時の改善ポイント
  •  レコメンドに関するその他の指標を知る
  • 4 スコアの計算
  •  複数の値をバランスよく組み合わせてスコアを計算する
  •  値の範囲が異なる指標を正規化して比較可能な状態にする
  •  各データの偏差値を計算する
  •  巨大な数値の指標を直観的にわかりやすく加工する
  •  独自のスコアリング方法を定義してランキングを作成する

Chapter9 知識に留めず行動を起こす

  • 1 データ活用の現場
  •  データの活用方法を考える
  •  データに関わる登場人物を知る
  •  ログフォーマットを考える
  •  データを活用しやすい状態に整える
  •  データ分析のプロセスを習得する
  •  分析のはじめの一歩を踏み出す
  •  相手の職種・役職に応じたレポートを作成する
  •  さらなるデータ活用のスキルを磨く
  •  ビッグデータ時代のデータ分析者に向けて
Home 書籍一覧 ビッグデータ分析・活用のためのSQLレシピ ▲ ページトップへ戻る