医療大規模データベース研究　実現可能性調査のやり方③

2025年12月10日
疫学

こんにちは、すきとほる疫学徒です。

医療大規模データベースを行う際に、

「沢山データベースがあるけど、どうやって選んだらいいの？」

「そもそもデータベース研究の実現可能性って、どうやって調べるの？」

という方に向けて書いております。

なお、こちらの記事は第三部になりますので、初見の方はこちらの第一部、第二部からお読み頂くようお願いいたします。

医療大規模データベース研究　実現可能性調査のやり方①

こんにちは、すきとほる疫学徒です。　製薬企業で疫学研究をしておりますと、色々なところでデータベース事業者さんからお声をかけて頂くことがあるのですが、ここ数年でデータベース事業者さんや、事業者さんが扱う医療大規模データベース[…]

医療大規模データベース研究　実現可能性調査のやり方②

こんにちは、すきとほる疫学徒です。　医療大規模データベースを行う際に、「沢山データベースがあるけど、どうやって選んだらいいの？」「そもそもデータベース研究の実現可能性って、どうやって調べるの？」　 […]

これまでの記事でもお伝えいたしましたが、本記事は以下の国際薬剤疫学会が作成したガイドラインをベースに作成されております。

*https://pubmed.ncbi.nlm.nih.gov/22069180/*

今回お伝えする第三部は、Data extractionについてであり、「医療大規模データベースから、自分の研究に使うデータをどう抽出してくるか」ということを解説しています。

本ブログは、私が業務上知り得たいかなる情報にも基づかず、一般論もしくは広く公開された情報のみに基づき執筆されています

本ブログは、私個人の責任で執筆され、所属する組織の見解を代表する物ではありません

「RWD研究の支援をしてほしい」というご相談を多くの企業様から頂戴するので、企業様向けに正式に窓口を設置しました。

以下のアドレスに連絡頂ければ私に直通しますので、「1時間の無料相談」も含めてお気軽にご連絡ください（3営業日以内にお返事させて頂きます）。無料相談は大変ご盛況となっており、先着順にて対応させて頂いております。

お問合せ先：naoki.hirose@mmedici.co.jp（廣瀬個人アドレス）

私が経営するmMEDICI株式会社ではRWD利活用支援を事業の柱の一つとしており、以下の強みを有しています。「企業の」RWD研究においては日本トップクラスの解像度と経験値を有する自信がありますので、ぜひ無料相談でご体験くださいませ。

元大手外資の日本・グローバル出身の疫学専門家が全案件を担当するので、「企業の」RWD研究に高い解像度を有しています
ただ成果物を納品するだけでなく、グローバルやKOLとの合意形成、社内プレゼン、規制当局対応などRWD研究の「プロセス」も全てまきとれます
企業のRWD研究を幾度となく経験しており、企画立案から論文化までの全フェーズを一気通貫で対応できます
アカデミアのRWD研究者と広い繋がりを有しており、必要に応じた専門人材のアサインが可能です
RWD研究だけでなく、事業立案、マーケ、広報、営業などのRWDビジネスも全て対応可能です

以下に私の実績を記載させて頂きます。

大手外資製薬2社にて、部門唯一の疫学専門家として活動をリード
「RWDビジネスの教科書」の書籍を出版（サイドバーをご覧ください）
企業でのRWD研究の経験は50本以上
製造販売後データベース調査のリード経験多数
これまで製薬、CRO、コンサル、総合商社、ヘルステックなど10社以上の企業のRWD研究・RWDビジネスを支援
50組織以上にRWD研修を提供
全体統括・講師を勤めたJapan RWD Summitでは初回から約1,700名の集客を実現

無料相談では、以下のような内容を含め企業様の「RWD」と名のつく相談でしたら全て対応させて頂きます。

このテーマでRWD研究はできるの？
RWD研究っていくらくらいかかるの？
RWD研究ってどんなプロセスでやれば良いの？
製造販売後データベース調査のやり方を教えてほしい
RWD研究をするにはどんな専門家を雇えば良いの？
自社のRWDサービスを売りたいんだけど、強みはどこ？集客はどうすれば良い？

無料相談は先着順での対応となりますので、ご希望の企業様はぜひお早めのコンタクトをお願い致します！

お問合せ先：naoki.hirose@mmedici.co.jp（廣瀬個人アドレス）

1 データの抽出 ①Specification of data extraction
2 データの抽出 ②Extraction of the study population
3 データの抽出 ③Extraction of study variables
4 データの抽出 ④Output
5 データの抽出 ⑤Extraction from coded systems
6 データの抽出 ⑥Extraction from non-coded system
7 データの抽出 ⑦Retrieval of additional data
8 終わりに
9 すきとほる疫学徒からのお願い

データの抽出 ①Specification of data extraction

データ抽出の際には、事前にプロトコールと仕様書をしっかりと固定して、専門家に助けを求めた上で抽出していこうね、という話です。

医療大規模データを扱った研究をする方でも、実際に自分でデータソースからデータを抽出した経験がある方は多くないのではないでしょうか？

ある程度医療大規模データの扱いに慣れている研究室や企業でしたら、抽出担当の方や部署がおり、その方に依頼すればデータを抽出してくれるという環境が多い気がしています。

ですので、医療大規模データの利用者側はそうした抽出担当の方に、「こんなデータが欲しいんです」という意志を誤解の余地なくお伝えしなければなりません。

そこで、事前規定された仕様書が必要になるわけですね。

仕様書には、

データの始点と終点
抽出対象となる集団
その他の必要な変数

などを記載しますが、ここでは仕様書をそのまま打ち込めばコードになる、くらいの詳細な情報を記載せねばなりません。

例えば、「肺がんの患者を抽出してほしい」とだけ伝えられても、抽出担当の方は

「肺がんって、どのコードよ？」

「C34と書いてあれば、小数点以下は問わないのか？」

「それとも小数点以下まで定義して、一部の肺がんだけ対象にしたいのか？」

と解釈に揺れてしまい、コードを書くことができません。

また、科学の基本である再現可能性を担保するという意味でも、仕様書は誰が見ても解釈に余地がないよう詳細な定義を掲載している必要があります。

データの抽出 ②Extraction of the study population

対象集団の抽出は、幾つかの包含基準・除外基準に則り、段階を分けて行います。

ここから先はガイドラインに書いてあることでなく、私個人の意見なのですが、私はデータ抽出の段階ではあまり厳しく包含基準・除外基準を適用しない方が良いと思っています。

例えば、「65歳以上、肺がん（C34の前方一致）で、肺がん切除術（オペコードXXX）を受け、術後2日以内に死亡していない患者」のような集団を抽出するとしたら、私ならデータ抽出の段階では「65歳以上の肺がん（C 34前方一致）患者」くらいまでに止め、より緩やかな定義での抽出を行なっています。

というのも医療大規模データベース研究では、データに実際に触れながらデザインの詳細を決定していくという性質もあるため、抽出段階でかなり絞った患者抽出を行なってしまうと、後々データを見てから「あ、ここの除外基準はあっちの方が適切だったな」と気付いても、手遅れになるからです。

データ抽出の頻回な依頼は抽出担当の方にとって負担となるため、極力一回で済むようにすべきです。

なのでデータの容量が許す限りは、データ抽出の段階ではある程度緩やかな定義で患者集団を抽出しておいた方が良いと考えています。

データの抽出 ③Extraction of study variables

変数の抽出をお願いする際には、仕様書に以下のことを詳細に定義しておく必要があります。

変数が保存されているファイル（複数データセットからデータベースが構築されていることは頻繁にあるため）
変数の特定方法（コードリストなのか、フリーテキストなのか、アルゴリズムなのか）
（同一変数に対して該当する時点で複数あるなら）特定の時点

繰り返しになりますが、データ抽出の仕様書は抽出担当の方が一読したときに「あー、ここのファイルで、このコードを入れて、んで時点はここね」という形で、流れるように対象となるデータを見つけられるような記載になっていなければなりません。

医療大規模データでは大量の変数を抽出する可能性が高いため、それ一つひとつに対して「この変数の定義曖昧でわからんのだが」という状況が発生すれば、抽出担当の方のご負担は非常に大きいことは想像に難くないでしょう。

データの抽出 ④Output

どのようなフォーマットでデータを抽出してもらうのか（文字列か数字かなど）、定義書ではっきりしましょうねというお話。

データの抽出 ⑤Extraction from coded systems

仕様書にはコードリストを添付し、そして仕様書におけるそれぞれの抽出条件が、コードリストのどの部分に対応するかを明記しましょうという話。

なお、同じ疾患や医療行為をターゲットにしたコードも診療報酬改定の影響などにより年々変化している可能性があるため、データ抽出の対象となるそれぞれの時点でコードリストを作成する必要がある。

データの抽出 ⑥Extraction from non-coded system

wildcardsの使用、negationやannotationなどの非コードタイプの抽出条件を設定する際には、しっかり仕様書に書いておこうねという話。

データの抽出 ⑦Retrieval of additional data

他のデータベースから情報を追加する場合（患者報告のアウトカムや、電子カルテ外の情報など）は、それらのデータの収集方法及びオリジナルのデータベースから抽出したデータとどう結合するかも書いておきましょうね、という話。

終わりに

さて、今日は少し短めでしたが、データベースの抽出段階におけるお話をさせて頂きました。

これまでの三章で医療大規模データベース研究をする前に行うべき実現可能性調査について一通り記載させていただきました。

医療大規模データベース研究は、既にデータがあるから解析すれば何かしらの結果が出てしまう。

それが正しくとも間違っていようとも。

だからこそ、医療大規模データベース研究を行う者は、自分を厳しく律して、ほんとうに実現可能性がある時だけにこそ研究をやるという姿勢が必要になるわけですね。

すきとほる疫学徒からのお願い

本ブログは、読者の方が自由に記事の金額を決められるPay What You Want方式を採用しています。

「勉強になった！」、「次も読みたい！」と本ブログに価値を感じてくださった場合は、以下のボタンをクリックし、ご自身が感じた価値に見合うだけの寄付を頂戴できますと幸いです。

もちろん価値を感じなかった方、また学生さんなど金銭的に厳しい状況にある方からのご寄付は不要です。

引き続き情報発信していく活力になりますので、ぜひお気持ちに反しない範囲でご寄付をお願い致します！

ご寄付はこちらから

薬剤疫学、製薬キャリアに関する最新情報はこちらから

フォローする

医療大規模データベース研究　実現可能性調査のやり方③

データの抽出 ①Specification of data extraction

データの抽出 ②Extraction of the study population

データの抽出 ③Extraction of study variables

データの抽出 ④Output

データの抽出 ⑤Extraction from coded systems

データの抽出 ⑥Extraction from non-coded system

データの抽出 ⑦Retrieval of additional data

終わりに

すきとほる疫学徒からのお願い

【厳選】無料の疫学・統計学オンライン講座11選！

薬剤曝露シリーズ⑤ 曝露の誤測定がもたらすバイアスの方向と大きさについて

疫学の最新記事8件

【DeSCデータベース編】日本で使える医療大規模データベースの”一歩進んだ”解説

【疫学専門家の脳内を暴露】疫学思考をリアルな研究相談での会話を通してお伝え！

【保存版】観察研究を視覚化！デザインダイアグラムの描き方ガイドライン

【保存版】研究の必需品！一歩進んだTable 1の描き方ガイドライン

医療大規模データベース研究 実現可能性調査のやり方③

データの抽出 ①Specification of data extraction

データの抽出 ②Extraction of the study population

データの抽出 ③Extraction of study variables

データの抽出 ④Output

データの抽出 ⑤Extraction from coded systems

データの抽出 ⑥Extraction from non-coded system

データの抽出 ⑦Retrieval of additional data

終わりに

すきとほる疫学徒からのお願い

【厳選】無料の疫学・統計学オンライン講座11選！

薬剤曝露シリーズ⑤ 曝露の誤測定がもたらすバイアスの方向と大きさについて

疫学の最新記事8件

医療大規模データベース研究　実現可能性調査のやり方③