医療大規模データベース研究　実現可能性調査のやり方②

2025年12月10日
疫学

こんにちは、すきとほる疫学徒です。

医療大規模データベースを行う際に、

「沢山データベースがあるけど、どうやって選んだらいいの？」

「そもそもデータベース研究の実現可能性って、どうやって調べるの？」

という方に向けて書いております。

なお、こちらの記事は第二部になりますので、初見の方は必ずこちらの第一部からお読み頂くようお願いいたします。

医療大規模データベース研究　実現可能性調査のやり方①

こんにちは、すきとほる疫学徒です。　製薬企業で疫学研究をしておりますと、色々なところでデータベース事業者さんからお声をかけて頂くことがあるのですが、ここ数年でデータベース事業者さんや、事業者さんが扱う医療大規模データベース[…]

第一部でもお伝えいたしましたが、本記事は以下の国際薬剤疫学会が作成したガイドラインをベースに作成されております。

なお、この記事は第一部から第五部くらいまで続く予定のちょっとした大作となっておりますので、我慢してお付き合い頂けますと幸いです。

*https://pubmed.ncbi.nlm.nih.gov/22069180/*

ちなみに、第一部では変数やサンプルサイズ、患者追跡期間など、医療大規模データベースの利用者サイドにフォーカスした項目がメインでした。

第二部以降は（そしてここがこのガイドラインの素晴らしいところなのですが）、データベースの結合、保存、データ抽出など、どちらかと言えばデータベースの構築者サイドにフォーカスした項目がメインになっていきます。

「私はデータ使うだけだから、読まなくていいや」と思われるかもしれませんが、個人的な意見としては「医療大規模データベースは、ブラックボックスなところが多いからこそ、どのように構築・運営されているかは利用者も知らねばならない」と思っております。　　

恥ずかしながら私も医療大規模データベース研究を始めたばかりの頃は、その構築の過程を知ろうともせず、「データ使い放題でラッキー、論文書きまくろう」と邪な気持ちを持っておりました（今も50％くらいは残っていますが。。。）。

しかし、何本か論文を書き、医療大規模データベースの知識もついてきた頃に気づきました。

「目の前にあるデータだけでなく、そのデータがどう集められ、保管され、抽出されたのかというところにもイマジネーションを持っておかないと、その詰めの甘さが研究デザインにも反映される」というところに。

例えば、とある医療機関から集めた診療報酬請求データを使って疾患の予測モデルを作っていた時です。

それまで私は、「病名って、診断されたらStart dateがついて、治ったらEnd dateがついて、そんで再発されたらまたStart dateがつくんだろう」と考え、予測モデルに投入する変数を検討していました。

しかしおかしなことに、盲腸や骨折など、長くとも数ヶ月あればフォローアップが終了するであろう疾患が、10年以上もactiveな状態として記録され続けているケースなんかもあったんですね。

そこで、「これなんだ？私の病名への理解、間違ってるのか？」と考えつきまして。

そうして日本の診療報酬請求データの入力プラクティスや、収集方法を隅々まで調べたところで、「診療報酬請求においては、一度Activeになった疾患は毎月のレセプトに掲載され続け、さらに医師が意図的にEnd dateを付与しない限りは、フォローアップが終わってもActiveな状態で残り続ける」ということを知りました。

他にも、データに意味不明な数字が入っていたり、以上にMissingが多い変数などもあり、それらもデータを集めた方に直接収集・保管プロセスをヒアリングしていくことで、「あーなるほど、ここでこういう収集・保管プロセスをとってるから、このタイミングで謎数字・Missingが出るんじゃないか」などと理解を進めることができた経験があります。

このように、医療大規模データベースを利活用する際には、背景にあるデータ構築・運営プロセスを意識せねば対処できないlimitation・biasなどもあるため、これらの知識は単に利活用だけをする方にとっても必須だと思います。

それに、個人的には医療大規模データベースを使った研究への貢献度というのは、構築・運営者95％：利活用者5％くらいだと思っているので、血の汗を流すような苦労をしてデータベースを構築・運営してくださっている方々へ敬意を払うという意味でも、ぜひ知っておくべき知識ではないでしょうか。

また、製薬企業で製造販売後調査を行う方にとっては、データベースの信頼性保証は重要なトピックであり（製造販売後調査で医療大規模データベースを使用する場合には、「このデータベース、こうやって集められて、クリーニングされて、保管されてるから、信用できるよ大丈夫だよ」ということを客観的に示す必要があるのです）、そのためにはデータベースの内容だけではなく、構築・運営方法をも十分に理解しておく必要がありますよね。

本ブログは、私が業務上知り得たいかなる情報にも基づかず、一般論もしくは広く公開された情報のみに基づき執筆されています

本ブログは、私個人の責任で執筆され、所属する組織の見解を代表する物ではありません

「RWD研究の支援をしてほしい」というご相談を多くの企業様から頂戴するので、企業様向けに正式に窓口を設置しました。

以下のアドレスに連絡頂ければ私に直通しますので、「1時間の無料相談」も含めてお気軽にご連絡ください（3営業日以内にお返事させて頂きます）。無料相談は大変ご盛況となっており、先着順にて対応させて頂いております。

お問合せ先：naoki.hirose@mmedici.co.jp（廣瀬個人アドレス）

私が経営するmMEDICI株式会社ではRWD利活用支援を事業の柱の一つとしており、以下の強みを有しています。「企業の」RWD研究においては日本トップクラスの解像度と経験値を有する自信がありますので、ぜひ無料相談でご体験くださいませ。

元大手外資の日本・グローバル出身の疫学専門家が全案件を担当するので、「企業の」RWD研究に高い解像度を有しています
ただ成果物を納品するだけでなく、グローバルやKOLとの合意形成、社内プレゼン、規制当局対応などRWD研究の「プロセス」も全てまきとれます
企業のRWD研究を幾度となく経験しており、企画立案から論文化までの全フェーズを一気通貫で対応できます
アカデミアのRWD研究者と広い繋がりを有しており、必要に応じた専門人材のアサインが可能です
RWD研究だけでなく、事業立案、マーケ、広報、営業などのRWDビジネスも全て対応可能です

以下に私の実績を記載させて頂きます。

大手外資製薬2社にて、部門唯一の疫学専門家として活動をリード
「RWDビジネスの教科書」の書籍を出版（サイドバーをご覧ください）
企業でのRWD研究の経験は50本以上
製造販売後データベース調査のリード経験多数
これまで製薬、CRO、コンサル、総合商社、ヘルステックなど10社以上の企業のRWD研究・RWDビジネスを支援
50組織以上にRWD研修を提供
全体統括・講師を勤めたJapan RWD Summitでは初回から約1,700名の集客を実現

無料相談では、以下のような内容を含め企業様の「RWD」と名のつく相談でしたら全て対応させて頂きます。

このテーマでRWD研究はできるの？
RWD研究っていくらくらいかかるの？
RWD研究ってどんなプロセスでやれば良いの？
製造販売後データベース調査のやり方を教えてほしい
RWD研究をするにはどんな専門家を雇えば良いの？
自社のRWDサービスを売りたいんだけど、強みはどこ？集客はどうすれば良い？

無料相談は先着順での対応となりますので、ご希望の企業様はぜひお早めのコンタクトをお願い致します！

お問合せ先：naoki.hirose@mmedici.co.jp（廣瀬個人アドレス）

1 複数のデータソースの取り扱い　①Data resources containing different information on the same patients
2 複数のデータソースの取り扱い　②Data resources containing similar information on different patients
3 複数のデータソースの取り扱い　③Data storage
4 複数のデータソースの取り扱い　④Data analysis
5 終わりに
6 すきとほる疫学徒からのお願い

複数のデータソースの取り扱い　①Data resources containing different information on the same patients

単一のデータベースでは手に入る情報に限りがあっても、複数の外部データベースと結合することで、より広いリサーチクエスチョンに対応できる可能性が上がります。

例えば、NDBデータベースのような診療報酬請求データベースでは、基本的には診療報酬請求に記載された情報しか入手することができません。

それに対して、外部データソースである死亡届、出生届などを結合することができれば、より正確に患者の死亡・出産を定義することができます。

このように複数データソースをリンケージするためには、データソース間で同一患者に共通して振られるUnique IDが必要になります。

残念ながら日本ではこのような前データソース共通のUnique IDが存在していないため（マイナンバーがいずれその役割を果たすかもしれませんが）、データソース間のリンケージの難易度は非常に高いです。

ちなみに、医療大規模データベース研究が盛んな国として台湾があるのですが¹、台湾では患者レベルのUnique IDであるPersonal identification numberを用いて、複数データソース間に結合が可能になっており、これは台湾でデータベース研究が盛んな理由の一つでしょう。

1 Milea D, Azmi S, Reginald P, Verpillat P, Francois C. A review of accessibility of administrative healthcare databases in the Asia-Pacific region. J Mark Access Health Policy. 2015;3:10.3402/jmahp.v3.28076. Published 2015 Jul 20. doi:10.3402/jmahp.v3.28076

では、「Unique IDがないから日本では一切データソース間の結合ができないのか？」と言うと、そうではありません。

例えば、DPCデータベースでは病院名をUnique IDとして、医療施設調査や病床機能報告といった病院レベルのデータソースとの結合を行い、医師数や看護師数といった情報を入手可能です。これにより、交絡因子としてこれらの変数を調整することや、また曝露として用いることでStaffing研究が可能になっています。

また、データソース間の結合と言えば、日夜、医療大規模データベース研究の専門家が苦心しているのが、National Database (NDB)における名寄せ（linkage）の問題でしょう。

NDBは日本中の診療報酬請求で構成される日本最大の医療データベースですが、そんなNDBを活用する上での課題が「どのようにして複数施設から集まる同一患者のレセプトを結合するか」ということです。

患者ごとに振られるUnique IDがないため、研究者たちは保険者番号、生年月日、名前などを結合したLinkage algorithmを作成しました²。

現在主に使われるアルゴリズムには2タイプあるのですが、それぞれ”転職や就職で保険者番号が変わってしまう”、”結婚や離婚で名前が変わってしまう”などの課題があり、今のところ同一患者を複数データソース間で完全一致させるということはできていないのです。

2 野田ら. レセプト情報・特定健診等情報データベース（NDB）における患者突合（名寄せ）手法の改良と検証. 厚生の指標. 64, 12, 2017 Oct.

ですので、もしあなたのリサーチクエスチョンが”複数データソースを結合する必要がある”ものならば、

どのようなAlgorithmで複数データソースを結合するのか
そのAlgorithmの妥当性はどの程度であるか

ということはデータベース研究の実現可能性を調査する段階で調べておく必要があるでしょう。

最近、データベース事業者さんによってはRetrospectiveに集められた診療報酬請求データに、Prospectiveに集めたサーベイ結果を結合することで、診療報酬請求データ単体では知り得なかったデータを入手することが可能になってきています。

こういったデータベースを使用する際にも、「Linkageできるのね、便利だな」で終わるのではなく、必ず「Linkageはどのようなalgorithmでやっているのか？その妥当性はどうなのか？」ということはデータベース事業者さんに確認すべきだと思います。

複数のデータソースの取り扱い　②Data resources containing similar information on different patients

①とは状況が反転し、こちらは”含まれるデータは同じだが、異なる患者の情報をもつデータソースをLinkageする”ことについてです。

現在日本で使用可能な医療大規模データベースでは、こうした使い方ができるものは私の知る限りはありませんが、例えば病院や自治体レベルでデータを収集する際に、複数の病院、自治体に渡ってデータを収集し、データベースを構築していくということは頻繁に行われています。

どちらかというとデータベース利用者というより、構築者目線のお話かもしれませんね。

薬剤疫学において、こうした異なる患者情報を含むデータソース間のLinkageが必要になるのは、特に希少疾患を扱う場合でしょう。

日本全体でも数十例〜数百例しかいないような疾患の患者をコホートとして、比較研究を行うとなると、どうサンプルサイズを確保するかが問題になります。

その際に、データベースAでは足りないから、データベースBを結合するという選択肢が取り得れば、よりデータベース研究で対応できるリサーチクエスチョンの幅が広がりますね。

複数のデータソースの取り扱い　③Data storage

データストレージの方法は大きく分けて中央管理型と分散管理型の2種類あります。

中央管理型では、様々な施設から集められたデータを中央で一元管理し、その管理には中央のルールが適応されます（プライバシーやセキュリティに関するルール）。

一方の分散管理型では、データは各施設で管理されるため、管理には各施設のルールが適応されます。

私自身はこういったデータ収集・管理に関する作業をおこなった経験はないのですが、幾ら共通フォーマットがあると言えど、施設間でのデータ入力プラクティスには所々ばらつきがあるはずで、それを綺麗な一つのパッケージへと纏めあげるまでには膨大な労力が掛かっているはずです。

データベースの構築・運営をしてくださる先生方、本当にほんとうにありがとうございます。。。

複数のデータソースの取り扱い　④Data analysis

③で述べたように2種類あるデータストレージの方法に応じて、どうやってデータを解析するかというお話しです。

中央管理型の場合は、既に一元化されたデータがありますので、それをそのまま研究計画に則って解析していくだけですね。

分散管理型の場合は、これまた2種類の解析方法があります。

一つ目はIndependent analyticsで、こちらの長所は複数データに共通したデータ構造を設定する必要がないということです。まず、全施設に共通の研究計画が作成され、そしてそれぞれの施設のデータ管理者がその研究計画を各自のデータにアレンジする形で適応し、解析を行います。その後、各施設の解析結果を中央に集め、統合する、ないしはメタ解析が行われます。

二つ目は、Coordinated or distributed analyticsで、こちらではまず複数データに共通したデータ構造を設定します。そして、各施設から集められたデータを中央の管理者が共通のデータ構造へと変換し、解析するわけですね。

終わりに

さて、今日は少し短めでしたが、データベースの構築段階におけるお話をさせて頂きました。

次回の第三章は、Data extractionということで、構築された医療大規模データベースから、どうやって自分の研究に必要なだけのデータを抽出してくるのかということをお話ししていきたいと思います。

医療大規模データベース研究　実現可能性調査のやり方③

こんにちは、すきとほる疫学徒です。　医療大規模データベースを行う際に、「沢山データベースがあるけど、どうやって選んだらいいの？」「そもそもデータベース研究の実現可能性って、どうやって調べるの？」　 […]

すきとほる疫学徒からのお願い

本ブログは、読者の方が自由に記事の金額を決められるPay What You Want方式を採用しています。

「勉強になった！」、「次も読みたい！」と本ブログに価値を感じてくださった場合は、以下のボタンをクリックし、ご自身が感じた価値に見合うだけの寄付を頂戴できますと幸いです。

もちろん価値を感じなかった方、また学生さんなど金銭的に厳しい状況にある方からのご寄付は不要です。

引き続き情報発信していく活力になりますので、ぜひお気持ちに反しない範囲でご寄付をお願い致します！

ご寄付はこちらから

薬剤疫学、製薬キャリアに関する最新情報はこちらから

フォローする

医療大規模データベース研究　実現可能性調査のやり方②

複数のデータソースの取り扱い　①Data resources containing different information on the same patients

複数のデータソースの取り扱い　②Data resources containing similar information on different patients

複数のデータソースの取り扱い　③Data storage

複数のデータソースの取り扱い　④Data analysis

終わりに

すきとほる疫学徒からのお願い

医療大規模データベース研究　実現可能性調査のやり方①

薬剤疫学論文に登場する誤解しやすい薬剤関係の英単語について

疫学の最新記事8件

【DeSCデータベース編】日本で使える医療大規模データベースの”一歩進んだ”解説

【疫学専門家の脳内を暴露】疫学思考をリアルな研究相談での会話を通してお伝え！

【保存版】観察研究を視覚化！デザインダイアグラムの描き方ガイドライン

【保存版】研究の必需品！一歩進んだTable 1の描き方ガイドライン

医療大規模データベース研究 実現可能性調査のやり方②

複数のデータソースの取り扱い ①Data resources containing different information on the same patients

複数のデータソースの取り扱い ②Data resources containing similar information on different patients

複数のデータソースの取り扱い ③Data storage

複数のデータソースの取り扱い ④Data analysis

終わりに

すきとほる疫学徒からのお願い

医療大規模データベース研究 実現可能性調査のやり方①

薬剤疫学論文に登場する誤解しやすい薬剤関係の英単語について

疫学の最新記事8件

医療大規模データベース研究　実現可能性調査のやり方②

複数のデータソースの取り扱い　①Data resources containing different information on the same patients

複数のデータソースの取り扱い　②Data resources containing similar information on different patients

複数のデータソースの取り扱い　③Data storage

複数のデータソースの取り扱い　④Data analysis

医療大規模データベース研究　実現可能性調査のやり方①