RPythonで学ぶ[実践的]データサイエンス&機械学習

[表紙]RとPythonで学ぶ[実践的]データサイエンス&機械学習

B5変形判/432ページ

定価(本体2,980円+税)

ISBN 978-4-297-10508-2

電子版

→学校・法人一括購入ご検討の皆様へ

書籍の概要

この本の概要

本書は野村総合研究所のシステムコンサルティング事業本部で実施している「アナリティクス研修」をベースにした書籍で,「統計的なモデリングとは何か?」「モデルに基づく要因の分析と予測の違いとは?」「具体的なモデルの作り方」「結果を解釈する際の落とし穴の見分け方」など,ビジネスの現場感を重視した構成です。実務で遭遇するデータ品質や加工のポイント,さらにRとPythonを利用し,データからモデルを作成して結果を得るという基本的な手順を体験できます。これからデータ分析や統計解析,機械学習を学び,現場でそれらを活用したい方に最短学習コースでお届けします。

こんな方におすすめ

  • データ分析・統計解析や機械学習について知りたい方
  • データサイエンティストになりたい方

目次

第1章 データサイエンス入門

  • 1.1 データサイエンスの基本
    • 1.1.1 データサイエンスの重要性
    • 1.1.2 データサイエンスの定義とその歴史
    • 1.1.3 データサイエンスにおけるモデリング
    • 1.1.4 データサイエンスとその関連領域
  • 1.2 データサイエンスの実践
    • 1.2.1 データサイエンスのプロセスとタスク
    • 1.2.2 データサイエンスの実践に必要なツール
    • 1.2.3 データサイエンスの実践に必要なスキル
    • 1.2.4 データサイエンスの限界と課題
  • コラム ビジネス活用における留意点

第2章 RとPython

  • 2.1 RとPython
    • 2.1.1 RとPythonの比較
  • 2.2 R入門
    • 2.2.1 Rの概要
    • 2.2.2 Rの文法
    • 2.2.3 データ構造と制御構造
  • 2.3 Python入門
    • 2.3.1 Pythonの概要
    • 2.3.2 Pythonの文法
    • 2.3.3 Pythonでのプログラミング
    • 2.3.4 NumPyとpandas
  • 2.4 RとPythonの実行例の比較
    • 2.4.1 簡単な分析の実行例

第3章 データ分析と基本的なモデリング

  • 3.1 データの特徴を捉える
    • 3.1.1 分布の形を捉える ─ ビジュアルでの確認
    • 3.1.2 要約統計量を算出する ─ 代表値とばらつき
    • 3.1.3 関連性を把握する ─ 相関係数の使い方と意味
    • 3.1.4 Rを使った相関分析 ─ 自治体のデータを使った例
    • 3.1.5 さまざまな統計分析 ─ 理論と実際の考え方
  • 3.2 データからモデルを作る
    • 3.2.1 目的変数と説明変数 ─ 説明と予測の「向き」
    • 3.2.2 簡単な線形回帰モデル ─ Rによる実行と結果
    • 3.2.3 ダミー変数を使ったモデル ─ グループ間の差異を分析
    • 3.2.4 複雑な線形回帰モデル ─ 交互作用,モデル間の比較
    • 3.2.5 線形回帰の仕組みと最小二乗法
  • 3.3 モデルを評価する
    • 3.3.1 モデルを評価するための観点
    • 3.3.2 この結果は偶然ではないのか? ─ 有意確率と有意差検定
    • 3.3.3 モデルはデータに当てはまっているか? ─ フィッティングと決定係数
    • 3.3.4 モデルは複雑すぎないか? ─ オーバーフィッティングと予測精度
    • 3.3.5 残差の分布 ─ 線形回帰モデルと診断プロット
    • 3.3.6 説明変数同士の相関 ─ 多重共線性
    • 3.3.7 標準偏回帰係数

第4章 実践的なモデリング

  • 4.1 モデリングの準備
    • 4.1.1 データの準備と加工
    • 4.1.2 分析とモデリングの手法
  • 4.2 データの加工
    • 4.2.1 データのクレンジング
    • 4.2.2 カテゴリ変数の加工
    • 4.2.3 数値変数の加工とスケーリング
    • 4.2.4 分布の形を変える ─ 対数変換とロジット変換
    • 4.2.5 欠損値の処理
    • 4.2.6 外れ値の処理
  • 4.3 モデリングの手法
    • 4.3.1 グループに分ける ─ クラスタリング
    • 4.3.2 指標を集約する ─ 因子分析と主成分分析
    • 4.3.3 一般化線形モデル
    • 4.3.4 2値データを目的変数とする分析 ─ ロジスティック回帰
    • 4.3.5 セグメントの抽出とその特徴の分析 ─ 決定木
  • 4.4 因果推論
    • 4.4.1 データから因果関係を明らかにする ─ 統計的因果推論
    • 4.4.2 因果関係に基づく変数選択

第5章 機械学習とディープラーニング

  • 5.1 機械学習の目的と手順
    • 5.1.1 機械学習の基本
    • 5.1.2 機械学習の手順
    • 5.1.3 データの準備に関わる問題
    • 5.1.4 特徴抽出と特徴ベクトル
  • コラム 機械学習と強化学習
  • 5.2 機械学習の実行
    • 5.2.1 機械学習ライブラリの活用 ─ scikit-learn
    • 5.2.2 機械学習アルゴリズムの例 ─ ランダムフォレスト
    • 5.2.3 機械学習アルゴリズムの例 ─ サポートベクターマシン
    • 5.2.4 機械学習の実行例
  • 5.3 ディープラーニング
    • 5.3.1 ニューラルネットワーク
    • 5.3.2 ディープラーニングを支える技術
    • 5.3.3 ディープラーニング・フレームワーク
    • 5.3.4 ディープラーニングの実行
    • 5.3.5 生成モデル

著者プロフィール

有賀友紀(ありがゆき)

株式会社野村総合研究所にて,企業のIT活用動向に関わる調査・研究に携わる。大学での専攻(心理学)で定量分析を扱った経験から,データの適切な活用と課題解決が定着するよう施策検討を行っている。データサイエンスに関する社内研修の企画・コンテンツ作成と講師も手掛ける。修士(人間科学)。


大橋俊介(おおはししゅんすけ)

修士(工学)を取得後に株式会社野村総合研究所入社。入社後はサプライチェーン領域でデータを活用したコンサルティングをきっかけにデータサイエンス業務に従事する。現在は,幅広い業種・業務領域において機械学習や混合整数計画などの最適化を用いた業務の効率化・高度化を実施。