【保存版】観察研究を視覚化!デザインダイアグラムの描き方ガイドライン

 

こんな人におすすめの記事です。

  • 観察研究のデザインが複雑すぎてうまく文章にできない
  • 文章にできたけど、読者にきちんと伝えられてるか不安

 

こんなお悩みを解決します。

『Real World Data使った観察研究のデザインって複雑すぎじゃない?論文読んでも全然頭に入んないんだけど』

 

Real World Data、特にレセプトデータや電子カルテデータなんかの二次データを使った観察研究って、ほんとうにデザインが複雑になるんですよ。

私自身も自分で書きながら「ん、つまりこれ何言ってんだ?」って混乱することもあるし、ましてや読者ならなおのことです。

 

そんな混乱を避けるために使用が推奨されているのが「デザインダイアグラム」という視覚化ツールです。

色んなガイドラインが研究デザインの視覚化を推奨していますが、その集大成としてとある論文が提案したのがデザインダイアグラム。

 

こちらの論文でデザインダイアグラムの①用語、②描き方のスタンダードが解説されています(以下、参考論文)。

Schneeweiss S, Rassen JA, Brown JS, Rothman KJ, Happe L, Arlett P, Dal Pan G, Goettsch W, Murk W, Wang SV. Graphical Depiction of Longitudinal Study Designs in Health Care Databases. Ann Intern Med. 2019 Mar 19;170(6):398-406. doi: 10.7326/M18-3079. Epub 2019 Mar 12. PMID: 30856654.

 

 

日本のReal World Data研究ではまだまだ見ることは少ないですが、デザインダイアグラムがあるだけで劇的に研究デザインが分かりやすくなりますし、またその研究に潜むバイアスにも気づくことができるので、絶対に使ったほうが良いです。

今回の記事ではそんなデザインダイアグラムの描き方を解説していきますね。

 

デザインダイアグラムが描いてあると「こいつ分かっとるやん」と思います(謎に上から目線)

 

本ブログは、私個人の責任で執筆され、所属する組織の見解を代表する物ではありません

      

    

    

    

デザインダイアグラムとは?

突然ですが、デザインダイアグラムとはコイツ↓

*本記事のグラフは参考論文の筆者が利活用を推奨するために無料公開しているものを引用しております(http://www.repeatinitiative.org/projects.html)。

    

参考論文より引用

 

参考論文より引用

  

  

デザインダイアグラムとは「研究デザインを時間軸で視覚化する」ツールです。

  

その目的は「医療データベースを用いた複雑な研究デザインを分かりやすく視覚化することで、読者が研究の質を判断し、結果を解釈することをサポートする」こと。

  

例えば、次のような文章があったとして、瞬時にそのデザインを想像できますか?

  1. 2005年1月〜2020年4月のデータカットを行い
  2. 初発の肺がんのコードが振られた日をCohort entry dateとし、
  3. 初発かどうかはそれ以前の6ヶ月を振り返り肺がんの有無を確かめ
  4. さらにCohort entry dateの前後3ヶ月に肺がんの検査が行われており
  5. そしてCohort entry dateの6ヶ月以内に抗がん剤が投与されており
  6. 共変量としてはCohort entry dateの前12ヶ月を調査し
  7. そして追跡開始は抗がん剤の初回投与日とし
  8. 追跡終了は肺炎の発症、データ終了日、死亡日のいずれかの最も早いものとする

  

ややこしいですよね…

私もデータベース研究をやる中で何度もこのややこしい定義を作ってきていますが、いまだに自分で考えながら「あれ、これがあそこで、あれがここで」と混乱します。

ましてや読者が初見でこのデザインに潜むバイアスを正確に評価し、その結果を解釈するなんてなお困難です。

  

そんな時にデザインダイアグラムがあれば!!!

乾いた喉に水が染み渡っていくかのように心が癒されます(本当に癒されます)。

参考論文より引用

  

  

なので私はデザインダイアグラムの使用を強く、強く推奨します。

そして私自身も必ず描くようにしています。

  

レビュワーの印象も良くなるでしょうし、何より自身の理解の確認、チームでの意思統一のクオリティが格段に上昇するからです。

ではここからはそんなデザインダイアグラムの描き方を解説していきましょう。

  

  

  

      

デザインダイアグラムの構成要素

デザインダイアグラムには大きく分けて2種類あります。

 

 

カレンダータイムによるデザインダイアグラム

参考論文より引用

 

  

一つ目はこちら、カレンダータイム、つまり実際の日時をベースにしたデザインダイアグラムです。

 

上のグラフの通り、カレンダータイムダイアグラムの意義は「その研究の対象期間がいつか」ということを伝えることです。

上のグラフを見ると解析に用いる期間が”2016年5月1日〜2017年1月1日”であることが分かりますね。

 

このダイアグラムに登場する要素をまとめて”Base anchor”と呼び、以下で構成されます(なお、Data extraction dateとSource data rangeはデザインダイアグラムに描かず、本文中に記載します)。

  • Data extraction date(データの抽出日)
  • Source data range(ソースデータの全期間)
  • Study Period(解析用対象となるデータの全期間)

 

 

医療大規模データというのは常にデータが更新し続けられる可能性を持った流動的なものですので(たとえば、新たに取得できる変数が増えたり、コーディング方法が変わったりなど)、”Data extraction date”を定めることで「どの時点での状態のデータでFixさせたものなのか」ということが明示できます。

 

Source data rangeとは使用するデータベースが情報を取得している期間の全体です。たとえば、「JMDCは2005年1月から2023年3月までのデータを含んでいる」といった具合に。

 

そして最後にStudy Periodとはあなたの研究の解析対象となるデータ期間の全体です。たえとえば、「対象となる薬剤の上市日が2014年4月なので、JMDCにおける2013年10月から2023年3月までのデータを解析対象とした」といった具合に。

 

 

 

 

ペイシェントイベントタイムによるデザインダイアグラム

参考論文より引用

  

  

ペイシェントダイアグラムに登場する要素は大きく以下の2つに分かれます。

  

【First-order anchors】

  • Cohort entry date(コホートに組み込まれた日)
  • Outcome event date(アウトカム発生日)

  

【Second-order anchors】

  • Washout window for exposure(特定の日以前に曝露の発生がないことを確認する期間)
  • Washout window for outcome(特定の日以前にアウトカムの発生がないことを確認する期間)
  • Exclusion assessment window(除外基準へのあてはまりを確認する期間)
  • Covariate assessment window(共変量を収集する期間)
  • Exposure assessment window(曝露状況を確認する期間)
  • Follow-up window(対象を追跡する期間)

  

  

First・Secondとあるように、まず「First-order ancohorsで時間軸における視点を定め、そしてそれを基準にSecond-order ancohorsを定めていく」という順序になります。

  

  

疫学をある程度勉強している方であれば気づくと思うのですが、これちょっとTarget Trial Emulationの考えに似ていますよね。

Target Trial Emulationでは「Day 0、治療割り付け、そして追跡開始」の3時点がズレることでさまざまなバイアスが入ることを学びます。Immortal time biasやSelection biasですよね。

 

なので、ペイシェントダイアグラムを描くことでそのような3時点のズレが発生していないか、つまりそのズレによるバイアスが生じていないかをアセスメントできるわけです。

 

Target Trial Emulationについてはこちらのブログをご覧ください。

 

 

さて、要素を順に解説していきましょう。ちなみにデザインダイアグラムではデザインに対して適用する要素が上から順に並べられており、上から下に視線を移動することで「どうデザインを組み込んでいくか」という思考が進むようになっています。

  

一つ目の要素はFirst-order anchorのCohort entry date(CED)から。

  

【CED】

CEDは対象者が解析集団に組み込まれた日のことです。

論文ではIndex Dateと呼ばれることも多いですね。

  

具体例を出すと、下のグラフでは「First prescription of ACE or ARB」となっています。

参考論文より引用

  

  

コホート研究においては他のAnchorはCEDを起点に設定されることが多いため、まず第一に設定すべきAnchorになります。

  

  

  

さて、ここからはCEDを基準に設定するSecond-order anchorの解説です。

  

【Exclusion assessment window】

さて、CEDにより対象者の組み入れを行った後に、除外基準に該当する対象者を除外します。

その除外基準への該当を確かめる期間がExclusion assessment windowです。

  

除外基準が複数あり、それぞれに対象とする期間が異なる場合は、複数のバーを描きます。

以下の図では「Intermittent medical and drug coverage」はCEDの[-183, -1]を、そして「Age, initiate both Ace and ARB」はCEDの[0, 0]を対象期間としていることが分かりますね。

参考論文より引用

  

なお、各バーの下にある[]で囲まれた部分はCEDを0日とした際の対象期間の範囲を表します。

  

もしExclusion assessment windowがFollow up windowとオーバーラップしている場合には「追跡開始後に患者を除外している」ことになり、条件がそろえば選択バイアスを生じることになります。

そういったアセスメントもペイシェントダイアグラムがあれば一目瞭然で行うことができますね。

  

  

    

【Covariate assessment window】

Covariate assessment windowは対象者の背景情報を調べるための期間です。

  

変数によってはどの時点でとるかによって大きく値が変わりますので、これを明示することはとても重要です(例えば検査値や薬剤使用状況など)。

  

こちらもExclusion assessment window同様に複数設定することがあり、下のグラフでも[0, 0]と[-183, -1 ]の2時点を設定しています。

参考論文より引用

  

  

Covariate assessment windowがCEDよりも後にきており、さらにその変数で回帰分析を調整していれば「曝露後の因子、つまり中間変数の可能性がある因子で調整をしてしまっている」危険性を示唆します。

  

  

  

【Exposure assessment window】

曝露を基準にCEDを定めない場合は曝露状態をアセスメントする期間としてExposure assessment windowを設定します。

  

たとえば「入院日をCEDとし、そこから1週間以内での薬剤投与を曝露とする」といった状況ですね。

  

下のグラフではCEDが曝露と一致していますので、Exposure assessment windowは設定されていません。

参考論文より引用

  

  

Exposure assessment windowの設定で特に注意すべきはImmortal time biasです。

Exposure assessment windowよりも前にアウトカムが測定されてしまうと、それは「アウトカムが起こり得ない期間に発生したアウトカム」となり、Immortal time biasが生じます。

  

  

  

【Washout window】

さて、コホート研究では「初回の曝露」と「初回のアウトカム」をターゲットにする状況が少なくありません。

Incident exposure、Incident outcomeですね。

  

データベース研究で分かるのはどの病気が、いつコードされたかということだけで、その病気がその患者における初発か、再発かなどは記録されません。

  

ですから、「X時点で発症の記録があり、そこから遡ってYヶ月は記録がなければ、X時点の発症を初発とみなす」という定義がよく用いられます。曝露についても同じです。

  

その「遡ってYヶ月」をWashout windowと呼びます。

  

こちらのグラフではCEDに対して[-183, -1]が曝露およびアウトカムのWashout windowとして設定されています。

参考論文より引用

  

  

ちなみに、なぜ曝露において初回使用者を捕らえないといけないかはこちらのブログで紹介しているので併せてどうぞ。

関連記事

こんにちは、すきとほる疫学徒です。   本日は、薬剤疫学分野で観察研究を行う際に注意しなければならないバイアス、Prevalent user biasを取り上げ、その理論的背景、具体例、そして対処法について解説していきたいと思[…]

  

  

  

【Follow-up window】

Follow-up windowは対象者がアウトカムを発生しうる期間(at-risk periodとも呼びます)であり、その有無を調査する期間です。

  

CEDから追跡が始まることもありますし、またInduction window(生物学的にアウトカムが発生し得ない期間)を考慮してCEDから一定期間後から追跡が始まることもあります。

Induction windowは日本語で誘導期間と呼び、たとえば抗がん剤と骨折の因果関係を調べる際に、「抗がん剤を飲んでXヶ月以内に骨折が発生することは生物学的に流石にない」と言うことがわかっていれば、そのXヶ月以内で発生した骨折はカウントから除外します。

  

Induction periodの詳細はこちらのブログでどうぞ。

関連記事

こんにちは、すきとほる疫学徒です。   ここからしばらくは、薬剤疫学の曝露定義について一連の記事を書いていく予定です。 個人的には、2次的RWDを用いた薬剤疫学研究において、最も厄介なのがこの曝露定義だと思っています。 […]

  

こちらのグラフではCEDからFollow-up windowが始まっていますね。

参考論文より引用

  

  

さて、Follow-up windowを「いつ始めるか」ということを決めたら、当然ながら「いつ終えるか」ということも決めねばなりません。

上の図では[]のなかにCensorと書かれ、小文字でcが振られ、LegendでCensoringに該当するイベントの解説が行われています。ここも非常に大切で、なぜなら「同じアウトカムが複数回起きたらどうするか」、「曝露した薬剤が中止されたり、他の薬剤にスイッチされたり、他の薬剤が追加されたらどうするか」という扱いの違いでその研究が答えようとしているリサーチクエスチョンがまるで変わりますし、またそれに応じて結果も大きく変わる可能性があるからです。

  

だから「いつ追跡を終えるのか」ということは明確に記載しましょう。

  

  

  

  

色々なデザインダイアグラム

さて、これまで解説したデザインダイアグラムはコホート研究における最も基本的なデザインをベースにしたものです。それ以外の研究デザインを用いる場合は、デザインダイアグラムも大きく変わります。

  

幾つか具体的に紹介しましょう。

  

  

Adherent userだけを対象にする場合

Adherent userとは「一定期間、薬剤をきちんと使用し続けた対象者」です。

  

ここではAdherent userの定義を「CEDから180日以内において対象薬剤の処方が3回未満であった」としましょう。

これをグラフにすると次のようになり、Exposure assessment windowがCEDの右側に来ていることが分かります。そして、Follow-up windowのスタートが[3rd refill]となっていますね。

参考論文より引用

  

  

  

Nested case-control design

Nested case-control designとは「ある特定のソースコホートのなかでアウトカムの発症者・非発症者を選び、研究の対象とするデザイン」です。

  

つまり、コホート形成の視点が曝露の有無からアウトカムの有無になってるわけです。

  

この場合、CEDはソースコホートに組み込まれた日となります(例えば下のグラフでは”抗菌薬を使用した集団”をソースコホートとしていますね)。

  

  

そして、ソースコホートに対してCEDを起点としてそれ以前の期間でWashout window、Exclusion assessmen window、Covariate assessment windowが定められています。

  

さて、その次は視点がFollow-up windowへと移り、アウトカムの発生の有無を調査します(ケース・コントロールの選択)ですね。

Follow-up windowの下にEvent dateが記されていることが分かりますね。

  

ケース・コントロールの組み込みが終われば、次は曝露状況の確認です、Exposure assessmen windowが設定されているのが分かります。

Exposure assessment windowの終点が[ED – 365]というように、「アウトカムの発生から1年前までの曝露状況を調べますよ」としています(つまり、曝露から1年後のアウトカム発生状況を調べる)。

  

  

なお、本記事が参照にするリンクではこれ以外にも次のような研究デザインのデザインダイアグラムが紹介されているので、ぜひご覧になることをお勧めします。

  • Time-based cohort entry
  • Case-crossover design
  • Self-controlled risk interval

      

    

    

      

終わりに

グラフって面白いですよね。

たった一つのグラフを作るだけで、ここまで思考が整理されるんですから。

  

特に研究デザインが複雑になりがちなデータベース研究ではなおさらです。

    

本記事が参照にした元論文ではより深くデザインダイアグラムが解説されておりますので、ぜひぜひそちらもご覧ください。

Schneeweiss S, Rassen JA, Brown JS, Rothman KJ, Happe L, Arlett P, Dal Pan G, Goettsch W, Murk W, Wang SV. Graphical Depiction of Longitudinal Study Designs in Health Care Databases. Ann Intern Med. 2019 Mar 19;170(6):398-406. doi: 10.7326/M18-3079. Epub 2019 Mar 12. PMID: 30856654.

   

   

   

   

終わりにその2

私は外資系企業と国立大学の疫学専門家として活動しておりますが、それ以前はブラック企業に勤める社畜として上司に怒鳴られる日々を送っていました。

    

「強く生きるには専門性だ」

    

そう一念発起し、大学院の修士課程に通い、そこから2年間で疫学専門家としてのキャリアにルートインし、2年で年収を1,400万アップさせることができました。

    

こちらのnoteでは、疫学の世界で活躍したいと考える方々に向けて、「専門性ゼロの段階からどうやって企業の疫学専門家のポジションをゲットするか」ということを解説します。

私自身が未経験から2年間で外資系企業の疫学専門家になるまでに積み重ねた経験、ノウハウの全てをお伝えするつもりで書き綴っています。

    

「これを読めば、企業の疫学専門家になるために必要な知識は全て揃う」

    

その気合いで、私のノウハウを全てお伝えします。

    

    

       

       

       

すきとほるからのお願い

本ブログは、読者の方が自由に記事の金額を決められるPay What You Want方式を採用しています。

  

学生さんや経済的に厳しい方からはお金を取りたくなく、それが経済格差に起因する学力格差へと繋がると考えるからです。

    

仕事の合間に記事を書く時間を見つけるのはちょっぴり大変ですが、今後も皆様の「研究生活をほんのり豊かに」できる記事をお届けし続けたいと思っております。

  

なのでお金に余裕があり、そして「勉強になった!」、「次も読みたい!」と本ブログに価値を感じてくださった場合は、以下のボタンをクリックし、ご自身が感じた価値に見合うだけの寄付を頂戴できますと幸いです

励みになるので、ご寄付はとてもありがたいです!

 

引き続き情報発信していく活力になりますので、ぜひお気持ちに反しない範囲でご寄付をお願い致します!

 

薬剤疫学、製薬キャリアに関する最新情報はこちらから