ディープデータアナリシス

一口にデータ解析といっても,人により,状況により,そのイメージはずいぶん異なるでしょう.あらかじめ目的が定まっていて一直線にデータを処理するだけなら比較的話は簡単です.しかし「手持ちのデータからなにか役立つことが見つからないか」が目的だとしたらどうでしょう. 目的地を探しながらの旅を始めなければなりません.ある程度の目的が定まっていても,満足な結果を得るためには多くの試行錯誤が欠かせません.ここでは,このような冒険の旅をディープデータアナリシス (deep data analysis) と呼ぶことにします.

ディープデータアナリシスを行うにあたって,データの準備作業に多くの時間を費やしていたら,時間が足りなくなることは目に見えています. あちこち掘り返すだけでも,かなりの時間が必要になります. さらに,あらかじめデータの全体像をつかみ,ねらいを的確に定めなければ,いくら深堀りしても本当に役立つ結果は得られないことは我々の長年の経験からも明らかです.

何事も楽しくなければ長続きしませんね.よく,データ解析に費やす時間の7割以上がデータの準備作業に費やされるといわれます.ここで挫折することが多いのもうなづけます.目標がはっきりしないまま,単調な準備作業を続けなければならないとしたら,それは苦役でしかありません.

隘路

データサイエンスが日本でもブームだった頃, R さえ使えればディープなデータ解析ができると思い込み,われさきに R に飛びつきました.しかし,30年以上前に R の前身である S をベル研究所と共同開発し,その普及を図るため様々な書籍も出版し,教育も活発に行ってきた我々としては,これは目を白黒させるばかりの現象でした.たしかに S はディープデータアナリシスを行うための一つの理想的な環境として作られたものです.しかし,使いこなすのにはハードルが高いことも事実です.単に R の基本的な使い方を覚えるだけではどうにもならないことはよくわかっていたからです.

いまなお R を本当に活用している人はどれだけいらっしゃるのでしょうか? R は一応勉強したけれど,どう活用したらよいのかわからなくて,そのままになっている方も多いのではないでしょうか.その理由は,大きく分けて次の3つになるになると思います.

  1. R で使える形にデータを整えるのが厄介で,なぜ R を使わなければならないか疑問
  2. データの全体像をつかむのが困難なため,どう解析したらよいか迷ってしまう
  3. R のヒューマンインタフェースが時代遅れで,面倒.

我々はこれらの問題をデータサイエンスを提唱した 1990 年代 からすでに認識し,その解決策を探ってきました. TRAD はその集大成ともいうべきものであり,かなりの手間と時間をかけて出来上がったソフトウエアです.まだ完成したわけではありませんが,実使用を重ねることで十分実用の域に達しております.ディープデータアナリシスの健全な発展を願って無償で利用していただくことにしていますので,データの扱いに困っている方,データの全体像がつかめなくて困っている方.R が使いにくいとおもっている方,ぜひお試しください.また,教育にも広く役立つこととおもいます.今後の進化もご期待ください.日々,更新しております

TRAD の機能

TRADの詳細は,TRADヘルプPDFファイルを参照していただくとして,ここではその機能のいくつかを箇条書きしておきます.

データの読み込み

  1. CSV ファイル,TSV ファイル,EXCEL ファイル,テキストファイル
  • 多層カラムラベル
  • さまざまな表現の欠損値
  • 空白セルの取り扱い(NA, 置き換え,パッディング)
  • 数値と非数値が混在したセル
  • 複数テーブル,複数シート (併合,分離)
  • 転置
  1. RDB への直接アクセス
  • SQL
  • 複数のRDBMSへの同時アクセスとカラム単位の併合
  1. ID カラムの自動判別
  • 欠損がない,値が一意な非数値カラム
  • 連続する正整数
  1. 属性の付与
  • ShortName, LongName
  • DataType (Mark, Measurement, Ordered Mark)
  • Code
  • Unit
  • Explanation

データのブラウジング

  1. TextilePlot
  • データの全体像のニュートラルな視覚表現
  • DataType の視覚表現
  • 重複記録の表示
  • 欠損数
  • 記録のハイライトと同定
  • 軸位置の自由な変更
  • 軸のクラスタリング
  • 各軸のスケールの一時的な変更(ズーム)
  • クリップボードへのコピー
  1. フィルタリング
  • 記録に関するフィルタリング
  • 変量に関するフィルタリング
  • Visual filtering
  1. 変容
  • Normalisation
  1. DandDエディタ
  • Datatype の自由な変更
    • Measurement, Ordinal, Cardinal, Frequency,( Date)
    • Mark, Ordered Mark, Logical
  • Code の自由な変更
  1. 多国語対応
  2. DandD ライブラリ
  3. R と共通な作業ディレクトリ

R インタフェース

  1. 整理された美しく,使いやすいインタフェース
  • Rコマンド入力と出力の分離
  • 出力の色分け
  • 自由なカット・ペースト
  • オブジェクトパネルによるオブジェクトの視覚的な管理
  1. TRAD本体(TAD) からのデータの自動取り込み
  2. R からの Textiplot の描画とTADへの取り込み
  3. 日本語の完璧なサポート
  • 等ピッチフォント
  • 自然な日本語入力
  1. ヒストリーパネル
  • 過去のR入力コマンドのブラウジング
  • 日時のチェック
  1. オブジェクトパネル
  • 作業領域のオブジェクト表示
  • オブジェクト名の変更
  • オブジェクトの削除
  • オブジェクトの編集
  1. 独自 R エディタ
  • 空も含む編集対象オブジェクトのフレキシブルな選択
  • 付値するオブジェクト名の自由な指定
  • 式オブジェクトのサポート(Rスクリプトの保存)
  • 正規表現もサポートする強力な検索機能
  • カッコの自動インデント
  • 独自エラー処理機能
  1. 総合パッケージサポート
  • インストールされたパッケージの一覧とワンクリックでの attach
  • パッケージのアップデートと新規インストール
  1. R first モード
  • R を優先した立ち上げ,TADはアイコン化され必要に応じて現れます

TRAD

TAD

Screen shot

R

Screen shot

R エディタ

Screen shot

TextilePlot, R and DandD

高次元データそのままの姿をグラフィカルに表現する TextilePlot と,データサイエンス実践の基本的な道具となった R, インターデータベースのサポートも含めた「データとその属性の一体化」ツールである DandD(Data and Description)を統合した環境を提供するソフトウエアがTRADです.すべて JAVA でプログラムされています.

ここ一年ほどのブラッシュアップによって,機能の拡充や処理速度の向上などか計られ実用の域(state of art)に近づいてきました.単純なCSV ファイルだけでなく,複数のテーブルからなる CSV ファイル,転置の必要なテーブルを含む CSV ファイル,複数シートのエクセルファイルのサポートだけでなく,十数万行に渡るテーブルや,数千カラムからなるテーブルもストレスなく扱えるようになりました.日々精力的にアップデートしておりますのですので,ご期待ください.

まずは,URLパネルにある Example インスタンスを試してみてください.さらにお手持ちの CSV ファイルをドラッグしてみてください. また,厚労省の 300 以上のファイルからなる患者調査データを DandD ライブラリー化したものもダウンロードできますので,これらもお試しください.このライブラリー作成が TRAD の実用性をずいぶん向上させました.TRAD がどんな環境かご理解いただければ幸いです.

Example インスタンスはネットワーク経由で取得しますし,データソースへネットワーク経由でアクセスするインスタンスもありますので,エラーが起きたときは,まずネットワークに接続しているかどうか確かめてください.

ダウンロード(無償)

TRAD の実行にはJAVAの実行環境 (JRE) がインストールされている必要があります. インストールしてなければ, まず JAVA を ダウンロードサイトからダウンロードしインストールしてください.データサイエンスの健全な発展を願って無償で提供しております.

お問合せは 宛にお願いします.すべてのご質問,ご要望にすぐお応えできるわけではないことはあらかじめご了承いただければ幸いです. なお,TRADのカスタマイズやトレーニングのご要望は,同じ までお寄せください.

Q&A

TRAD の最新の機能より安定性を重視する方は,安定版をお使いください.安定版は少し古いですが,これまで問題がないことを検証済の版です.ただし R の version にご注意ください .

Windows 版は R の メジャー番号が 3 の Vresion に対応するようになりました.ただし, R version 3.5.x から34ビット版への対応は致しませんので,どうしても32ビット版のRをお使いになりたい方は R version 3.4.x より前の Version をお使いください.

Mac 版はディフォルトで R version 3.5.x に対応しております,これ以前の Version の R を使う方法については TRAD マニュアルをご参照ください,

 

TRAD(TRAD20181015)

Windows版ZIPファイル(コード署名済, R version 3.x.y に対応,ただし R version 3.5.x は 64 bit 版のみ

MacOS版ZIPファイル(Apple 認証済, R 3.5.x対応)

主要な更新履歴

  • TRAD20181001: 色分けしたハイライトができるようになりました
  • TRAD20180905: DandDEditor のヒューマンインタフェースを改善しました
  • TRAD20180827: MacOS のもとでの R の描画がうまくいかなかった問題を解決しました.
  • TRAD20180821: R version 3.5.x 以降への対応には,JRI を解読し修正する必要がありました.R の install.packages("rJava") でダウンロードされる rJava にふくまれる JRI には多言語,特に日本語への対応に問題があり,それがさまざまな副作用も引き起こしていました.従って今後は,JRI だけでなく R のソースプログラムの管理も行っていきます
  • TRAD20180812: R version 3.5 以降にも対応したはずだったのですが,R はversion 3.5.0 で大幅な変更があったようで,日本語の表示,ヘルプの表示,グラフィックスの表示とさまざまな問題が起きることがわかりました.現在,原因の探索を行っていますので,しばらくは R Version 3.4.4 以前をお使いください.
  • TRAD20180805: config 項目が増えました.これらの項目を利用するにはアップデートの際にホームページなどの TRAD.conf もアップデートしてください
  • TRAD20180720: Wefts の色分けができるようになりました.
  • TRAD20180702: Data Tables ポップアップからコメントの付加,データテーブルの削除ができるようになりました.
  • TRAD20180627: Data Tables ポップアップを改善しました.
  • TRAD20180626: R version 3.5 以降にも対応するようになりました
  • TRAD20180515: Normalised 時の ID の扱い変更
  • TRAD20180512: Data Tables の表示と選択機能の充実
  • TRAD20180507: Weft操作機能修正,マニュアルにデータファイルの読み込みとして「観光庁データファイルの読込」を追加
  • TRAD20180503: データファイル読込,Warp操作, Weft 操作 機能拡張

TRAD(安定版)

Windows版ZIPファイル(コード署名済, R 32 ビット版は Version 3.4.4 以前だけ対応, TRAD20181001)

Mac版ZIPファイル(Apple 認証済, R 3.5.x,TRAD20181001)

ドキュメント

TRADオフラインマニュアルPDFファイル

DandDインスタンスライブラリ

解凍後,ディレクトリ PatientSurvey をホームディレクトリのサブディレクトリ DandDlibrary の直下に移動してください. TRAD の DandDライブラリータブから簡単に利用できるようになります.

厚労省患者調査データDandDインスタンスライブラリZIPファイル

たとえば解凍した PatientSurvey を,Windowsなら [ドライブ]>[ユーザー]>[ユーザー名]>DandDlibrary の直下に.Mac なら,/Users/[ユーザ名]/DandDlibraryの 直下に置いてください.

TRADを立ち上げている状態でライブラリを追加した場合は,TRADを一度閉じてください.もう一度立ち上げれば利用できるようになります.