こんにちは、すきとほる疫学徒です。
アカデミアや企業で盛んに医療大規模データベース(以下、医療DB)が行われるようになった背景には、使用できる医療DBの増加という要因があります。
私が観測できている範囲でも、使用可能な医療DBが日にひに増えてきており、医療DB研究を行う研究者には、「使用可能な医療DBを把握し、それぞれの正しい使いどころをアセスメントする能力」が求められるようになってきました。
そのような医療DBの乱立の中で、日本薬剤疫学会をはじめとし、いくつかの機関、研究者が主だった医療DBの概要を説明してくださっております。
こちらの記事では「もう一歩進んだ医療DBの理解を」をテーマに、それぞれの医療DBがどのようなリサーチクエスチョンと相性が良いかということを、具体例を添えて実践的に説明していきたいと思います。
なお、医療DBの運営者、設立年、サンプルサイズ、母集団、収集されている項目などの基礎的な情報には触れませんので、それらの情報は以下の日本薬剤疫学会による日本で使用可能な医療DBのまとめをご参照ください。
https://sites.google.com/view/jspe-database-ja2020/%E3%83%9B%E3%83%BC%E3%83%A0
・それぞれの医療DBを使った代表的な研究
・それぞれの医療DBが得意とするリサーチクエスチョン
DPCデータベース
データベースの説明
DPCデータベースとは、DPCデータを使って構築されるデータベース(DB)です。
世のDPCデータを使って構築されたDBは、定義上は全てDPC DBと呼ぶことができるので、その意味ではこの世には複数のDPC DBが存在し得ます(e.g., **会DPC DBとか、**学会DPC DBとかですね)。
ですので、論文中でDPC DBという言葉を目にした時には、どのような母集団から収集されたDPCで構築されたDPC DBなのかということを確認した方が良いでしょう。
なお、日本で最も大規模かつ使用頻度の高い(論文化されている)DPC DBは東京医科歯科大学の伏見先生を中心として作成された伏見班DPC DBですので、本記事ではこちらのDBをもってDPC DBと呼称していきたいと思います。
本記事は各DBの発展的な説明を目的にしているため、DPC DBの基礎的な概要を知りたい場合には、以下の資料をご参照ください。
https://www.jstage.jst.go.jp/article/iken/26/1/26_7/_article/-char/ja/
https://www.jstage.jst.go.jp/article/ace/1/3/1_76/_pdf
データベースの特徴
DPC DBの最大の特徴は、DPC病院への入院患者を中心としたDBであることでしょう。
これにより、以下の特徴が生じます。
- 豊富な患者背景データを有するDPC様式1データが使用できる
- 各入院単位で情報が完結しやすく、入院前後の情報を得ることが難しい
- DPC病院の中の悉皆性の高さ
順に説明します。
様式1が使用できる
DPC様式1データとは、通常の診療報酬データでは収集することができない詳細な患者背景を集めるためのデータです。
入手できる情報の代表格としては、入院時の意識状態、入院経路、予定・緊急入院、救急車の使用、がんの重症度、その他疾患の重症度、喫煙歴、BMIなどが含まれています。
様式1のデータはこちらから閲覧することができるので、ぜひ時間をとって眺めてみてください。
https://www.mhlw.go.jp/file/05-Shingikai-12404000-Hokenkyoku-Iryouka/0000027946.pdf
「こんなことも分かるの?!」と感動して頂けると思います。もちろん、変数によっては欠損が多い、妥当性に疑問があるといった変数もありますが、それでも他の医療DBでは全く知り得ない情報を知ることができるというのは、とっても魅力的ですよね。
なお、こちらはDPC DBとNational Databaseで入手可能な変数を比較した表ですが、NDBと比べるとDPC DBでさまざまな変数が入手可能であることがよくわかるでしょう。
こういった詳細な患者背景を入手できる医療DBはDPC DBのみであり、これによりDPC DBの特異性、価値の高さが際立っております。
こうした患者背景を知ることで、比較研究を行う際により丁寧に両群の比較可能性をアセスメントすることができますし、またこうした項目そのものを曝露・アウトカムにした研究というものもできるわけですね(具体例は後ほど紹介します)。
ですので、DPC DBはがん患者を母集団にした時の比較研究のように、「2群間の背景因子をバランシングすることがより重要になるリサーチクエスチョン(つまり、両群間で背景因子のばらつきが懸念される比較を行う時)」を実施する際に向いていると言えるでしょう。
がん患者を対象に、抗がん剤Aと抗がん剤Bの1年以内死亡率に対する効果を比較したいけれども、両剤で投与されるラインが異なっている可能性があり、そのためそもそもの癌の重症度が両群で違うかもしれないといった状況が想定されてしまうと、癌の重症度を考慮せずに比較研究を行うことは非常に難しくなります。
他の医療DBでは「癌の重症度なんてブラックボックスだから、研究のやりようがない」とされてしまう状況でも、DPC DBならば「豊富な変数で背景情報をバランシングすれば、そのリサーチクエスチョンもチャンレンジできるんじゃない?」と可能性を追求することができます。
入院前後の情報の追跡が難しい
DPC DBの次なる特徴は、「各入院単位で情報が完結しやすく、入院前後の情報を得ることが難しい」です。
各入院単位で情報が完結するとなると、例えば”数年間のフォローアップを経て発症する疾患”や、”複数の医療機関で治療を受けているような疾患”を対象にした研究は患者の追跡可能性の観点から難しくなってしまいます。
DPC DBでは、患者が同じ病院に入院すれば、異なる入院エピソードであっても情報を結合することができますが、引っ越してしまったり、別の病院に入院してしまった場合は、同じ患者の情報であっても、別の患者として扱われてしまうんですね。
ですので、DPC DBは、「単一入院中に完結するような曝露・アウトカムを対象にしたリサーチクエスチョン」と相性が良いと言えるでしょう。
例えば、”緊急入院でICUに入院した患者の7日以内死亡率”や、”予定入院の癌患者の30日以内死亡率”などですね。
DPC DBでは救急領域の論文が非常に多く出版されていますが、私個人としては救急領域のリサーチクエスチョンとDPC DBの相性の良さが理由の一つだと考えています(曝露が単発で完了しやすく、かつ結果が比較的短期間でわかる)。
反対に、「抗糖尿病薬が糖尿病合併症を抑えられるか」というような、長期間の追跡を必要とする慢性疾患などは、DPC DBで対象とするのには向いていないと言えるでしょう。
なお、救急領域のアウトカムのような比較的短期間で追跡完了できるようなアウトカムを対象にする際も、「疾患的に3日で転院してしまう緊急入院」とか、「通常オペ後に14日間で退院してしまう癌」だったりすると、DPC DBでは追跡することができませんので、単一入院中で十分に患者追跡が行える曝露・アウトカムであるかどうかをしっかりとアセスメントしてあげる必要があります。
ちなみに、DPCでは”退院後の再入院”をアウトカムにした研究をさかんに行われておりますが、この際もその疾患が、”もし再入院の必要が生じた際には、同じ病院に入院するであろう疾患である”という仮定が成立するかどうかをアセスメントしなければなりません。
DPC病院の中の悉皆性の高さ
悉皆性とは、DPC DBが母集団である全てのDPC病院のうちどの程度をカバーしているかという指標であり、伏見班DPC DBは悉皆性が非常に高いことが魅力となっています。
日本の急性期病院のうち1,000病院以上をカバーしており、これは全ての入院イベントの50%以上に該当します1。
そのため、DPC DBで実施された研究は、全てのDPC病院に対して集団代表性の高い研究であると言えるでしょう*。
*DPC DBには非DPC病院のデータは含まれておりませんので、あくまでも母集団を全てのDPC病院とおいた際の集団代表性の高さです。
そのため、特にDPC病院で行われる傾向にある高度な医療手技、重度な疾患を対象とした記述疫学を行う際に、DPC DBは特に力を発揮します。
これらも後ほど例を紹介しますね。
感動した論文例
食道がん患者における腹腔鏡手術は開腹手術と比較して術後成績を向上させるか?
食道がん患者を対象とした、腹腔鏡 vs 開腹手術の研究で、外科医学分野のleading journalであるAnnals of Surgeryに掲載されています。
食道がんに対して腹腔鏡 vs 開腹手術で術後成績を比較した論文は過去にもありましたが、どれもHigh volume center(食道がん手術の回数の多い病院)で行われており、Low to Middle volume centerも含めたnationwideなcohortに結果を外挿できるかどうかが不明でした。
そこで、NationwideにDPC病院のデータを集めたDPC DBを使うことで、先行研究の限界を見事に克服しています。
アウトカムとしては在院死亡、様々な合併症、術後の輸血、麻酔時間、在院日数、30日以内再入院など外科手術の成績を反映すると考えられる複数のアウトカムを設定していました。
DPC DBは在院中の死亡をしっかりと拾えるという強みがあり(医療DBの中には、死亡がうまく拾えないDBがあります)、また死亡というのは非常に妥当性が高く入力される病名であると想像できます。
それに曝露も単回のオペで、入力漏れやミスも少ないでしょう。
ですので、曝露やアウトカムにおける誤測定バイアスの影響が抑えられているであろうことが想定できます。
また、癌のオペ効果を比較する際には、交絡因子として術前の癌の重症度が懸念されるわけですが、本研究では癌のステージ、喫煙歴、Charlson併存疾患指数、その他の重要な併存疾患、Hospital volumeなどの重要な交絡因子をしっかりと入手し、傾向スコアマッチングにより背景因子のバランシングを行なっております。
DPC DBの様式1があることを活かした研究ですね。
余談ですが、様式1では病名一つとっても、さまざまなレベルの病名を測定することができます。例えば、入院前に有していた病名、入院後に発症した病名、最も医療資源を投入した病名、主たる病名などですね。このように、病名ごとにレベルをこまかくわけることで、”交絡因子として調整する併存疾患”、”アウトカムとする合併症”などと病名データをフラグづけすることができます。
他の医療DBではこのようにうまく病名を切り分けることが難しい時もあり、こちらもまたDPC DBの強みの一つとなっています。
医療大規模データベース研究はまだまだ誤解が多く、中には「手に入らない情報が多すぎて、使い道がない」と思い込んでしまっている方もいるかもしれません。
しかしながら、この研究のようにDPC DBの強みと弱みを正しく理解し、実現可能なリサーチクエスチョンを考案し、そしてDBの魅力を最大限に引き出すような綺麗なStudy designを組めば、日本の医療DBを使った研究はTop journalにも掲載されうるわけですね。
実臨床のプラクティス、そしてDPC DBのことを深く理解しているからこそ実現できる、非常に美しい研究だなと思っております。
DPC DBの魅力をあますことなく引き出した会心の1本だと思っておりますので、最初に紹介させて頂きました。
統合失調症の有無は、入院時点の癌ステージ、治療内容、在院死亡に影響するか?
統合失調症の患者さんは医療アクセスが悪いと言われており、癌患者を対象にその実証を行ったという社会格差を主題とした論文です。
こちらもThe British Journal of Psychiatryという精神医学分野の非常に競争率の高いjournalに掲載されています。
結果としては、統合失調症は入院時にステージ4の癌を有すること、侵襲的手術を受けないこと、そして院内死亡が高いことと有意に関連していました。
曝露はICD-10 codeで特定された統合失調症ですが、癌で入院した患者においてはおそらく統合失調症の偽陰性(本当は統合失調症に曝露しているのに、データ上は非曝露群として扱われる)が発生しており、曝露の誤測定が気になります。
ただ、この場合はBias toward the nullが発生するため、”もし誤測定バイアスがなければ、統合失調症はよりネガティブな結果を有していただろう”と推察されるため、誤測定バイアスがあることは本研究の結果を否定しません。
アウトカムとしては、先ほども申した通り院内死亡とオペ実施の有無は非常に高い確度で入力されていると想定されます。そして、入院時点の癌ステージには様式1に記録されている癌情報を使用していますね。
本研究の大きな限界の一つとして、患者の社会経済的因子(SES)が不明であるというものがあります。
本研究は統合失調症患者の医療アクセスを主題としており、医療アクセスには当然、その人の収入、教育歴、職業といったSESが影響していると考えられます。しかしながら、DPC DBではこうしたSESの情報を得ることができないという弱点があるため、本研究においても重要な背景因子であるSESがブラックボックスとなったままでした。
しかしながら、筆者はそんな中でも可能な限りの対処を行なっており、患者が住む市区町村の平均収入を、患者の収入の代替因子として投入しています。
DPC DBでは住所情報が分かりますので、それをもとに市区町村やその他の地理データと結合することにより、DPC DBに含まれていない情報を追加することができるという強みがあります。
私個人は本研究の限界は決して小さくはないと思っているのですが、それでも統合失調症患者の医療格差というテーマの重大さ、結果のインパクトの強さ、丁寧に書かれたIntroductionとDiscussionの説得力の高さなどから、本研究が精神医学領域のHigh Impact Factor Journalに掲載されるに至ったと推測しています。
この論文、限界が多い中でも本当に丁寧に論旨を展開しており、流れるように言葉が紡がれています。
先ほどの食道がん手術の研究もそうですが、質の高い研究というのは美しさも感じさせるのだなと感動したことを今でも覚えています。
妊娠中の自殺企図および周産期アウトカムは?
妊婦の自殺は世界的に重大な問題ですが、自殺を図った妊婦においてどのような周産期アウトカムが生じていたかを報告した研究はほぼありませんでした。
そんな中、筆者らはDPCデータの様式1を使って、この研究にチャレンジしました。
DPC DBの様式1の価値の高さ、DBのサンプルサイズの大きさが際立った研究と言えるでしょう。
驚かれる方もいるかもしれませんが、DPC DBの様式1では入院患者の自殺行為・自殺企図の有無という情報を収集しています。
この研究により、2016年1月から2018年3月にかけてDPC DBに収集された妊婦患者のうち、319人が自殺を試みていたことが分かりました。さらに、暴力的な方法で自殺を試みた女性においては、非暴力的な方法で自殺を試みた妊婦よりも、周産期アウトカムが悪化していたことが報告されています。
自殺企図を有する妊婦のように希少な集団を対象とするには、DPC DBの大規模なサンプルサイズがなければ実現できなかったでしょう。
また、質問紙調査のような一次データ収集という形式で自殺を試みた妊婦を特定するのは、サンプルサイズの観点からも、倫理的な観点からも実現が難しく、DPC DBだからこそ収集できた質問項目だと言えます。
DPC DBの様式1にはこれ以外にも本当に多種多様な変数が含まれており、今回の研究のように収集されたことそのものに価値があるという変数も複数存在します。
様式1はリサーチクエスチョンの宝石箱であり、私もDPC DBを使った研究をする際には、この様式1をじぃーっと眺めて、「何かできる研究はないかな」と試行錯誤していたことを思い出します。
様式1と友達になるところからDPC DB研究が始まると言われるほど(私が勝手に言ってる)、DPC DB研究において様式1の重要度は高いので、DPC DBを使うことを検討されている方は、様式1を隅々までチェックされると良いと思います。
なお、この研究の限界としては”自殺してしまい、入院に至らなかった妊婦は解析から除外されてしまっている”ということが挙げられます。
先に説明した通り、DPC DBは入院患者から構成されるDBですので、入院前後の状況を(様式1に記されているもの以外は)知ることはできないわけですね。
また、今回の研究では319人の自殺を試みた妊婦を収集していますが、これにより妊婦における自殺の発生頻度を算出することはできません。
なぜなら、そのために必要な分母、つまり日本全国の妊婦数のデータがDPC DBで入手することができないからです。
DPC DBは何らかの疾患により入院した患者を母集団としたデータベースですので、分母を”入院患者”として発生頻度を計算するような状況以外は(例えば、ICU入院患者における薬剤Aの投与割合とか)、発生頻度の計算が実施できないのです(ただ、行政データなどから年齢、性別で調整した母集団を推計することで分母とし、発生頻度の計算を試みているDPC DB研究も存在するにはします)。
せっかくなので、他に様式1の面白い変数を紹介すると、
・認知症高齢者の日常生活自立度
ICD-10 codeで特定した際の認知症病名の妥当性はかなり低いことがわかっていますが2、日常生活自立度と組み合わせることで、認知症病名の妥当性を向上させることができます。
また、認知症の重症度で層別化する、曝露やアウトカムをカテゴライズするなんてこともでき、DPC DBで認知症研究をする際には重要な変数です。ちなみに、DPC DBではADLも測定できますが、認知症患者の日常生活自立度とは要介護度認定に使われる指標で、ADLとは全く別の変数です。
この変数を使った研究はこちらで、「認知症ケア加算の創出により、急性期病院における認知症患者のアウトカムが改善したか」ということを調べています。
母集団である認知症患者を抽出する際に、一定以上の重症度の認知症患者に絞るため、この日常生活自立度と使っています。
・肺炎重症度(A-DROP)
肺炎患者を対象に研究を行う際には、当然ながら背景因子として肺炎の重症度を把握し、場合によっては調整することが重要になります。
こちらの研究は、肺炎によって入院した患者において、認知症の有無が退院先の決定に影響するかということを調べています。
様式1では、BUNまたは脱水の有無、SpO2、血圧、免疫不全状態、院内肺炎/市中肺炎など、A-DROPと呼ばれる肺炎重症度スコアを計算するために必要な情報を入手できます。
肺炎の他には、脳卒中のRankin Scale、心疾患のNYHA心機能分類、急性心筋梗塞のKillip分類、心不全患者の血圧、肝硬変患者のChild-Pugh分類、急性膵炎患者の重症度、精神疾患患者のGAFスコアなども入手可能であり、Claims databaseでありながらこれだけの重症度スコアが入手できるDBは世界でも類を見ないのではないでしょうか?
東日本大震災は一酸化炭素中毒患者を増加させたか?
災害が起きた後には、屋内での不適切な加温デバイスの使用により一酸化炭素中毒が起こりやすいことが知られていたのですが、震災後にも一酸化炭素中毒が増加するかどうかはまだ分かっていませんでした。
そのため、筆者は震災に曝露した地域・していない地域で月ごとの一酸化炭素中毒の入院患者数のトレンドを比較しました。
上が曝露群でのトレンド、下が非曝露群でのトレンドですが、曝露群においてのみ震災直後に明らかに一酸化炭素中毒での入院患者数が増えているのがわかりますね。
私が”うまい”と感じたのは、両群の発生頻度ではなくトレンドを比較しているところです。
先ほども申したように、DPC DBでは非入院患者も含めた母集団を知ることができないため、発生頻度を計算することができません。一方で、同じDPC病院での入院患者というトレンドであれば、DPC病院のデータさえあれば上のように測定することができます。
この研究が素晴らしいのは、とにかくシンプルでありながらも得られた示唆が力強いという点です。
まず、解析に関してはICD-10 codeで一酸化炭素中毒入院患者を特定し、地域ごとに月別の患者数をプロットするだけですので、とっても簡単なコーディングで対応できます(多分、実際にDPC DBを解析してる人なら頷いてくれるはず)。
そして結果の考察ですが、これもまたシンプルです。東日本大震災が起きた地域では停電が起き、かつ冬だから寒かった、だから屋内で不適切に加温デバイスを使ったため、一酸化炭素中毒が増加したのだろう。非常に理路整然としていますよね。
そして結論ですが、一酸化炭素中毒は誤診、見逃されやすいが、震災後には一酸化炭素中毒が増加することを念頭に置いて、医師は予防・治療に当たらねばならない、と。
シンプルな解析、考察でありながらも、診療への非常に重要な示唆が唱えられており、まさにシンプルイズベストというような論文でした。
筆頭著者の中島先生はご自身も救命救急センターで働く臨床医でいらっしゃいますが、医療大規模データベース研究の確かなスキルと、災害医療への深い知見が高いところで混じり合うことで実現できた研究であり、読んでいて「あっぱれ」と言いたくなりました。
データベースへのアクセス
DPC DBは伏見班を中心としたアカデミアによって運営されるデータベースです。
ですので、JMDCやMDVのように商業利用可能な(お金でアクセスがゲットできる)DBと異なり、企業からのアクセスは非常に限られていると言えるでしょう。
少なくとも私は、一般企業が筆頭著者として伏見班DPC DBを使用して論文を書いた事例を聞いたことがありません。
もしDPC DBを使用したかったとしたら、最もシンプルな道はDPC DBを運営する研究室に大学院生として入学することでしょう。
主としてこのDPC DBを使っているのは、東京医科歯科大学大学院の伏見先生の研究室、そして東京大学大学院の康永先生の研究室です。
また入学が難しかったとしても、もし医療機関や他大学のような公的なAffiliationを有する方であれば、DPC DBを管理する研究室に共同研究のご相談をさせて頂くという方法もあるかもしれません(私は内部の人間でも何でもないので、勝手な憶測です💦)。
いずれにせよ一般企業が営利目的でこのDPC DBを使用するというのはほぼ不可能だと私は認識しています。
終わりに
いかがでしたでしょうか?
私自身もこれまでDPC DBを使って複数の論文を書いていたこともあり、DPC DBには思い入れが強く、何だかどんどん記事が長くなってしまいました。。。
DPC DBは日本で最も医療大規模データベース研究を算出しているデータベースであり、そこに含まれる情報は世界的にも類を見ないものだと言って良いと思います。
しかしながら、ただ貴重な情報があるだけでは質の高い研究を成立させることはできません。
今回紹介した論文例の全てが、1. 実臨床への深い理解と問題意識の高さ、2. 高度な疫学と医療大規模データベース研究の専門知という土台があったからこそ実現できた研究であるということがお分かり頂けたのではないでしょうか?
逆に言えば、DPC DBを使いこなすだけの専門性がなければ、せっかくの貴重なデータベースも宝の持ち腐れになってしまうというわけですね(それどころか、Biasedな結論は誤ったプラクティスを誘引しますので、negativeなPublic health impactをもたらし得ます)。
・データベースの限界はあるが、正しく使えばTop journalに掲載される論文も書ける
・一般企業が営利目的でDPC DBを使用するのは極めて難しい可能性がある
他のデータベースはこちらで紹介しておりますので、あわせてご覧ください。
こんにちは、すきとほる疫学徒です。 アカデミアや企業で盛んに医療大規模データベース(以下、医療DB)が行われるようになった背景には、使用できる医療DBの増加という要因があります。 私が観測できている範囲でも、使用可能[…]
こんにちは、すきとほる疫学徒です。 アカデミアや企業で盛んに医療大規模データベース(以下、医療DB)が行われるようになった背景には、使用できる医療DBの増加という要因があります。 私が観測できている範囲でも、使用可能[…]
こんにちは、すきとほる疫学徒です。 アカデミアや企業で盛んに医療大規模データベース(以下、医療DB)が行われるようになった背景には、使用できる医療DBの増加という要因があります。 私が観測できている範囲でも、使用可能[…]
すきとほる疫学徒からのお願い
本ブログは、読者の方が自由に記事の金額を決められるPay What You Want方式を採用しています。
「勉強になった!」、「次も読みたい!」と本ブログに価値を感じてくださった場合は、以下のボタンをクリックし、ご自身が感じた価値に見合うだけの寄付を頂戴できますと幸いです。
もちろん価値を感じなかった方、また学生さんなど金銭的に厳しい状況にある方からのご寄付は不要です。
引き続き情報発信していく活力になりますので、ぜひお気持ちに反しない範囲でご寄付をお願い致します!