リウマチ膠原病のQ&A

日常診療で出会ったギモンに取り組んでいきます!

医療統計の初心者に届けたい良書3選(EZR編)

新谷歩先生の統計ブートキャンプ@大阪に参加したのは2017年10月1日。45歳の時でした(おそっ!?)

 

この日より医療統計の初心者(リウマトロジスト)が独学で医療統計の勉強をはじめて、2年半がたちました....

 

この間、EZRを使って2つの観察研究を仕上げ(とは言ってもImpact factor 1と2程度)、2020年5月現在、Rによる最初の観察研究のrevisionを提出したところです。燃え尽き感がハンパなく、脱線してブログに精を出しはじめた次第でございます(笑)。

 

まったくの初心者(かつ≧45歳)がいくつかの良書に巡り合ったおかげで、統計というイバラの道をなんとか歩き始めることができている?ようなので、ここ2年半の奮闘記を良書のご紹介とともに書き留めておきたいと思います。あと、ちゃっかりアフィリエイトもつけています(笑)

 

2017年までは統計がちゃんとできる同僚がそばにいてくれたので、自分で統計に手を出さず全部お任せしていました。中途半端に入るべきではないとか、自分に言い訳をして....

 

ですが、とあるデキレジが緑本(↓私だけの呼称)を片手にEZRを扱っていたのを見て、ひょっとして自分もできるんじゃないか??と思って、統計ブートキャンプ@大阪に申し込んだのでした。

 

だれの場合でもそうなのでしょうが、やりたい事がでてきては、クリアすべきハードルが見えてきて、そのために勉強するということの繰り返しでした。

 

f:id:oiwarheumatology:20200517093138p:plain

As needed(必要に応じて)、on-the-job trainingで、十分でした。

 

わたしの目標(ハードル)には、段階的に以下のようなものがありました。

・2×2tableでの比較の基本、Fisher検定ができること

・データの正規分布性に応じて、t検定、Mann-Whitney testを使い分ける事ができること

・Kaplan Meier曲線を書いてLogrank検定ができること

ROC曲線を書いて、cut-off値を決めること

・Logistic回帰で多変量検定ができること

・repeated measures ANOVA、Friedman検定ができること

などなど

 

最初は両群のある因子の比率をFisherで比較したい、Logistic回帰で独立した予測因子を求めたい、とか思って始めるわけですが、次々に克服すべきハードルが出てくるわけです。

 

本当に七転八倒の日々でしたが、おおむねEZRをとおして、統計の基本を自分なりに理解してこれたかと思います。最初からRであれば当方にはきつかったと思いますし、EZRの3つの良書に出会えて、本当に良かったと思っています。

 

ちなみに、なぜEZRやRかというと、なんといっても「タダ」で統計解析ができるからです。

 

その分、本代は惜しみませんでした。

 

↓の3つ以外にも、もう1冊買っちゃっていますが、ほとんど読まずに本棚に眠っています。おそらく3冊で必要十分であったのでしょう。

 

 

①初心者でもすぐにできるフリー統計ソフトEZR(Eary R)で誰でも簡単統計解析 神田善伸 (著)(おススメ度 ★★)

 

 

当方のような初心者に一番お勧めしたい良書です。辞書的に使うのではなく、まず1回読破することをお勧めします。言わずと知れたEZRの開発者の神田先生による入門書です。

 

内容の範囲やレベルは②「緑本」に遠く及びませんが、読み進めるうちに「あっ、できた!」という感動の積み重ねで、中級編→上級編と知らず知らずのうちにレベルアップしていくことができました。1ヶ月くらいで、たのしく読了できました。適切なアニメも理解を助けてくれます。

 

緑本」が発行が2012年なのに、この初心者版は2014年と後から発行されています。 本書の需要は高かったのだと思います。

 

↓の「緑本」だけでも初心者が学べる内容にはなっておりますので、こちらでスタートできる人は①初心者用は買わなくても良いかもしれません。

 

わたしにはデータの種類や正規分布、Kaplan Meier曲線の意味から説明してくれる本書がとにかくありがたかったです。

 

この本をもってしても、アヤメの話(線形回帰 )は当方にはきつかったです。いつか克服できますように。

 

 

②EZRでやさしく学ぶ統計学(いわゆる?緑本) 神田善伸 (著)(おススメ度 ★★★)

 

 

最初にお勧めした①初心者用にたいし、本書は中級者~上級者でしょうか。私は初心者用を読了して、こちらは辞書代わりに使っています。とても読破できる用量ではございませぬ。

 

わたしがとくに役立ったと思ったのは、相関係数ROC曲線、Friedman検定などの説明が詳しかったことです。

 

具体的には

 

相関係数の検定にはデータが正規分布していることが前提となること

ROC曲線を用いてcut-off値を決定する際、単純に感度+特異度が最大となる方法と、(1-感度)^2+(1-特異度)^2が最小となる方法があること

・対応のあるt検定の前提として、2群の差が正規分布に従うということが前提となっているということ

・対応のある2群以上の連続変数を比較する場合、データが正規分布していればrepeated measures ANOVAでよいが、正規分布していなければFriedman検定になること。

・またこの際(Friedmanでは)、2群間の比較はできないこと。

などなど

 

EZRの範ちゅうを越えて、統計学のポイントを教えていただいた、というか、なるほど~~と、「ガッテン」ボタンを何度も押したのでした。

 

わたしが購入したのは2017年で、2版でしたが、「改訂2版の序」に書かれた文章から、神田先生のお人柄がしのばれ、このような超一流の方にご指導をいただきたかったものだなあ....と思ったものでした。

 

また、本書で、Rを繰り返し勧められていたことも今思えばありがたかったです。いつかRに挑戦してみようと、動機付けになりました。

 

 

③みんなの医療統計(多変量解析編)新谷歩 (著)(おススメ度 ★★)

 

 

本書は多変量解析という難解なテーマをあつかっている書籍ですが、とにかく、文章が面白く、分かりやすかったです。タイタニック号での死亡率や大リーガーの打率の不思議なお話など、興味深い例をあげては、初心者を引きつけて、多変量解析を理解させてくれる、そういう良書でした。アニメもたくさんあって理解しやすかったです。

 

10日で読破するのはとても無理でしたけが、3週間かけて読了することができました。①と③が読破型の書籍ですかね(②が辞書)。

 

わたしが勉強になったのは、

・ロジスティック回帰モデルで入れられる説明変数の数は2群のうち小さい方のnを10で割った数まで

・単変量解析に対応する多変量解析の図

・傾向スコアの説明(マッチングのコンセプト)

などなど

 

少しきわどい話題もありまして、統計手法によるpハッキングが大きな問題であること、緑本で紹介されていたステップワイズ法を使わないようにクギを刺しておられた事など、さすが統計のプロだなぁと思わされました。

 

ps;YOUTUBEも配信されているようですね

https://www.youtube.com/watch?v=t3nks4chtSA

 

以上、長文を読んでいただいて、ありがとうございました。わたしの場合、EZRから入れてよかったと思っています。この3冊のおかげで、やりたかった臨床研究を完了することができました(↓)。

 

側頭動脈生検の感度を調査した研究

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6761355/

 

n=29の小規模研究です。統計は2群間の頻度の比較をFisherで行い(Table2)、診断の遅れがあればCardiovascular eventsが増える傾向がある事をやはりFisherで示すことができました。

 

結節性多発動脈炎の7-item criteria

https://link.springer.com/article/10.1007/s00296-020-04535-2

PANが疑われたコホート(n=37)で、18個の候補となる診断基準の各において、ROC曲線を用いて、カットオフ値を求めることができました。以下にもまとめています。

https://oiwarheumatology.hatenablog.com/entry/2020/05/22/000000 

 

リウマトロジスト@まだまだ初心者