柴田 里程 著『データサイエンスの作法』
2020年12月24日発売の近著で,以下のカバーをクリックして近代科学社のページへ飛ぶことで,ネット注文もできます(ISBN 978-4-7649-0627-3).我々が追い求めてきた「サイエンスとしてのデータサイエンス」のツボを,数式も一切用いず平易に解説しました.TRADによるデータの視覚表示が,データを活かし切るのにどれだけ役立つのかも実感していただけるに違いありません.データサイエンスの健全な発展を願い,A5版128ページ,カラー巻頭口絵つきで,税抜き2,000円と破格の値段に抑えていただきました.電子版も同時発売されています.
Q & A
Q. (Amazon のレビュー)TRADというソフトで出来ることはパラレル・コーディネート・プロット(並行座標プロット)です。少しRに慣れていれば自分でも描けます。A.TRAD の基本的な視覚表示であるテキスタイルプロットは単なる並行座標プロットではありません.確かに,数値変量だけのときの単なる並行座標プロットなら R でも簡単に描けますが,非数値変量も含む場合には,まずその値を軸上にどう配置するかから始めなくてはなりません. テキスタイルプロットは,各軸の位置尺度の適切の選択や非数値変量の値の配置の問題を水平線規準を導入することで解決しています.また,データテーブルのテキスタイルプロットによる視覚表示は TRAD のほんの表面にすぎません.データと人間とのさまざまな対話で必要となる様々な機能の実装がメインです.このような機能の GUI を R 上に実装するのはほとんど不可能といってもよいでしょう.大量大規模データもカバーするとしたら,なおさらです.
本書のキーワード
- バズワード「データサイエンス」からの解放
- 「データサイエンティスト」と「データ・サイエンティスト」
- データサイエンスとデータエンジニアリング
- 資料,情報,データはどう違う?
- COVID-19 (コロナ禍):絶対数,相対値
- データ倫理:データリテラシー,データの価値評価
- 三位一体:変量,データベクトル,座標軸
- 何も足さない,何も引かない:一枚の織物による視覚表示
- 機織り職人の心意気:経糸と緯糸の織りなす綾
- データブラウジング:視点,視野,視覚
- 大学ランキングデータ:東大は日本の最高峰?
- オープンデータ:宿泊旅行調査,患者調査,LIBOR
- データの変容:型,射影,正規化,結合,分解
- プログラミングかデータか:PythonとR
囲み記事一覧
- 推論の論拠と根拠 p.2
- COVID-19 p.6
- R p.11
- TextilePlotとTRAD p.17
- DandDインスタンス p.21
- 欠損値 p.23
- 分散とバラツキ p.25
- 色相,彩度,明度 p.29
- 母数 p.41
- 機械学習 p.43
- 書式 p.54
- 長名 p.61
- 重み付き和 p.74
- Python p.89
- 多重共線性 p.97
- 並行座標プロット p.103
- 数値化 p.105
- 画像記録形式 p.108
読者の感想(一部)
- 新型コロナウイルスの猛威は収まりそうもありませんが,データサイエンスを使ってより良い政策が立てられるのではないでしょうか?
- きれいなセンスのいい表紙ですね. 世の中、各大学でAIとデータサイエンスの学科やセンターができていますが,このブームに対する著者からの問いかけ 「皆さん、データサイエンスって何ですか」に何と答えるのだろうか興味が湧きます. COVID-19についても確かにランダムサンプリングを行えばよいですね. いろいろ勉強させていただいております.
- 「データサイエンスの作法」読ませていただいています. TRADが,「データ分析とデータサイエンス」の時から,かなり改良されていたのですね. Rと接続して、いろいろ勉強させていただいています. 私が感心したいくつかの項目として,とりあえず「 データの読み込みで、列ラベルの複数行対応がすばらしい」, 「記録度数型への変換で図が一瞬で変化する」,「並行座標プロットで,カテゴリー型変数も対応している」を列挙させていただきます.
- データサイエンス作法の汎用的な道具として TRAD の特徴・開発方針・利用法を詳しく説明しています.新しく開発された TRAD-GUI と R との結合は有用な機能です.分子生物学,宇宙科学,物性科学などのデータの解析には,TRAD のフィルタリングなど高度な利用が必要でしょう.官庁統計を代表とする公共的社会・経済調査データ,気象データ,金融データ,工場生産ライン,工業製品の設計マニュアルなども身近ですが,十分に複雑なデータです. 抽象的な数学・理論物理学を別として,人間が観測・実験・経験を整理・追及するとき,多かれ少なかれ可視化できて初めて理解できたと納得できるし,他人に伝えられると思います.
- いろいろ他の本に当たったけどよくわからん!という人にとっては救いの神みたいな本だと思います.
- 現場で日々仕事に追われていますので,このような柴田先生の哲学が詰まった著書に出会えたことはとても有難く思います.
- テキスタイルプロットが前面に押し出された,他に類を見ない意欲的な著書ですね.
- 素晴らしい内容、さすが!です。日頃「大ボラ」吹いている、と思っていましたが 見直しました。
- まだ、深く読み込めていないところがありますが、TextilePlotを中心として、様々なデータの分析の例を提示していることを拝見致しました。また、通常は、統計の書籍では触れられていない、データの視覚表示や読み込み等にも言及した、特色のある書籍となっていることに敬服しております。
- "数学アレルギー” の女子高校生にも読みやすい本だと感じました。生徒にも推薦してみようかと思います。
箇所 | 誤 | 正 |
p.i まえがき | データサイエンスティスト | データサイエンティスト |
資料
以下のソースデータをTRADのデモデータに含めておきましたのでご利用ください.
- 宿泊旅行統計調査: 001342341.xlsx
- 患者調査: j0091.csv
- LIBOR: LIBOR.txt
図8.2, 図8.3 を作成する R スクリプト例を参考までに載せておきます.
戦略
本書で示されたデータサイエンスの作法を TRAD で実践するとしたら,その戦略は
- データが思った通りに読み込まれているか入念にチェック
- 適切な型の設定
- 正規化が必要ではないかどうかチェック
- クラスタリングによる変量間の関係の探索
- 射影や主変量の絞り込みによる「視点」の明確化
- 記録の絞り込みによる「視野」の明確化
- 型の変更や緯糸の染め分け,ハイライトなどによる「視覚」の明確化
- 視覚表現からわかることを「言葉」に興す
- 必要なら R へ移って詳細な解析を施す
柴田 里程 著『データ分析とデータサイエンス』
(株)近代科学社より,データサイエンスのバイブル
『データ分析とデータサイエンス』(ISBN: 978-4-7649-0498-9)
が2015年12月22日全国書店で発売されました.以下のカバーをクリックして近代科学社のページへ飛ぶことでネット注文もできます Kindle版, Kinoppy版も発売されています.お好みの形式での購入をお勧めします.
本書は2部構成になっており,第I部は高等学校新課程での必修単元「データ分析」に沿った内容となっております.高校生により深く本単元を理解させるための教材としても大いに役立つでしょう.第II部は 「本物のデータサイエンティスト」になるために何が必要なのかからはじめ, 数々の実データをもとに,データサイエンスの実践によってどのような宝が見つけ出せるか,わかりやすく説明しています.実務に携わる方にも大いに役立つ内容に違いありません.
なお,本書を読み通すのに特段の予備知識なしで済むよう十分配慮してあります.「データサイエンス」や「データサイエンティスト」に興味をお持ちの方は,まず第6章からお読みいただくことをお勧めします.
読者の感想(一部)
- 完全にwet分野の経験しかなく、Rを勉強しているところで、いろんな書籍を参考に試行錯誤しているのですが、データ解析の方法はのっているもののどういう風に考えてどういう解析をするかという本は皆無で、先生の本は非常に役立っております。 このような本を常に探しておりましたが、やっと出会えたという感じです。
- 最近は法律の変遷などを肌で感じることが多く,民意というビッグデータをどう集め,どう判断すればいいのかと, 弁護士の方々が頭を悩ませているのに乗じて,自分も色々考えを巡らせております。 特に第7章の都道府県の力等,大変具体的で丁寧に書かれており,なかなか理解力が追い付かない私にも何とかわかりそうに思えます。
- 珠玉のデータの数々,勉強します.
- 内容は手ごわい部分がありますが,カバーは vi頁に解説がある通り,ほんわかしていて心が安らぎます. ワサビもところどころに配置してあり,味わい深いです.
- 内容盛りだくさんなのにハンディというか(あるいはその逆か) この内容が一冊にまとまった本は無いですよね. 特に高校生や高校の先生などに読んでもらいたいと思います
- 装丁、レイアウトが美しい本です。脚注を脚でなく、両側に置くのは新しい試みでしょうか。記号の説明から、 章末で詳しく論ずるようなことまで入っています。私には読みやすい形式ですが、初心者には煩わしくないでしょうか。
箇所 | 誤 | 正 |
p.37 問題3.1.4 2行目 | 持つことを示しなさい. | 持つだろうか? |
2019年2月28日発行の第2刷では,以下の第1刷での誤りや,読みにくい言葉遣いや体裁が修正されております.
箇所 | 誤 | 正 |
p.49 傍注参照番号 | 16) | 17) |
p.121 | Rtools | RStudio |
p.127 下から5行目,式の分子 | X-D | D |
p.194 傍注参照番号 | 40) | 41) |
p.249 参考文献[4] | K.Baba and R. Shibata | K.Baba, R.Shibata and M.Sibuya |
p.56 | の株価収益率データをローソク足で | をローソク足で |
p.188 | ロジスティック関数の定義式右辺の指数の肩 -αt/κ | -ακt |
p.242 | 共通な分布の平均,分散 | 共通な分布の平均,標準偏差 |
p.4 下から3行目 | 一定 | 一意 |
p.13 下から7行目 | の手形を振り出しによる支払 | を手形の振り出しで支払い |
p.45 下から2行目 | sd( | s( |
p.145 下から3行目 | = つまり | =I つまり |
p.145 下から2行目 | I このとき | このとき |
p.46 最終行 | 画面 | 画像 |
p.153 最終行 | mxm | 要素が非負のmxm |
p.210 下から3行目冒頭 | (ヌケ) | を |
p.236 下から8行目 | 株価 | 株式 |
p.238 上から17行目 | パラメータ | のパラメータ |
p.108 下から4行目 | (冒頭ピリオッド) | (前行末に送る) |
奥付 | 修士課程終了 | 修士課程修了 |
第I部資料
- R ダンプファイルPart1.R
- ping 実験用プログラムping.zip
ダウンロードしたファイルを R の作業ディレクトリに置き source("Part1.R") で読み込んでください. Mac の場合は日本語コードを合わせるため source( "Part1.R", encoding="cp932")で読み込む必要があります.
第II部資料
- R ダンプファイルPart2.R
- 各地の空間放射線量率radiation.csv
ダウンロードしたファイルを R の作業ディレクトリに置き source("Part2.R") で読み込んでください. Mac の場合は日本語コードを合わせるため source( "Part2.R", fileEncoding="cp932")としてください.
柴田 里程 著『時系列解析』
2017年9月15日発売の近著です.以下のカバーをクリックして共立出版のページへ飛ぶことでネット注文できます(ISBN 978-4-320-11255-1).
Q & A
Q. (Amazon のレビュー)私は、数理統計学の見地からの時系列解析が知りたくて「時系列解析の数学的基礎」(中塚1978)を手に取ったが読み通せず、次に本書を手に取ったが、結局理解できなかった。中塚本はコテコテの数学書スタイルのため、「この本が特別難しいのだな」と思ったのだが、本文100ページで数学書スタイルはとらない本書もほとんどコンテンツは変わらないように思えた. 数理統計学の見地からの時系列解析は数学をまず広く学んでから取り組むべきか、、、A. 前書きでも述べましたが,本書は時系列の基礎の基礎を疑問の余地のない形で理解していただくことを目的としています.そのため複素解析やヒルベルト空間の知見が必要になる部分もありますが,そこは読み飛ばしても理解できるよう工夫したつもりです.大雑把な印象として他書と変わらないと思われたかもしれませんが, 第4章の多変量時系列や,連続時間からのサンプリング,ウエーブレット表現など他書にはみられない内容が大半を占めています.最初は理解できないところは読み飛ばして最後まで読み進み,もう一度読み直すといった形で読んでいただくのが効果的かと思います.まず数学を広く学んでからというアプローチはあまりお勧めしません.途中で挫折するのが落ちですから.むしろ,複素解析やヒルベルト空間の知見が必要となったら WikiPedia などで補足するといった読み方のほうがよいと思います.本書の理解にはそれで十分です.ルベーグ積分の知識は必要ありません.リーマン積分と思ってもまったく問題ないので.
読者の感想(一部)
- 時系列解析について、読み易く、またコンパクトにまとめられていることに敬服しております。
箇所 | 誤 | 正 |
p.41 下から3行目 | 最後のピリオッド | コンマ |
2019年9月10日発行の第2刷では,以下の誤りは訂正されています.
箇所 | 誤 | 正 |
p.72 下から4行目 | 定理9 | 定理10 |
p.16 上から2行目 | スペクトル密度関数 | 有限なスペクトル密度関数 |
p.17 上から2行目 | 絶対連続,つまり | 絶対連続で,有限な |
p.50 上から1行目 | => | <= |
p.50 下から3行目 | => | <= |
p.77 上から8行目 | AR(p)モデル | 有限次モデル |
p.94 下から3行目 | 上の(1),(2) の | 上の(2)の |
p.94 下から3行目 | (1) は | ケズル |
p.94 下から2行目 | であるための条件,(2)は | で, |