薬剤疫学における医療大規模データベースの選び方、実現可能性調査のやり方について③

こんにちは、すきとほる疫学徒です。

 

医療大規模データベースを行う際に、

「沢山データベースがあるけど、どうやって選んだらいいの?」

「そもそもデータベース研究の実現可能性って、どうやって調べるの?」

 

という方に向けて書いております。

 

なお、こちらの記事は第三部になりますので、初見の方はこちらの第一部、第二部からお読み頂くようお願いいたします。

 

 

これまでの記事でもお伝えいたしましたが、本記事は以下の国際薬剤疫学会が作成したガイドラインをベースに作成されております。

なお、この記事は第一部から第五部くらいまで続く予定のちょっとした大作となっておりますので、我慢してお付き合い頂けますと幸いです。

https://pubmed.ncbi.nlm.nih.gov/22069180/

 

今回お伝えする第三部は、Data extractionについてであり、「医療大規模データベースから、自分の研究に使うデータをどう抽出してくるか」ということを解説しています。

 

 

本ブログは、私が業務上知り得たいかなる情報にも基づかず、一般論もしくは広く公開された情報のみに基づき執筆されています
本ブログは、私個人の責任で執筆され、所属する組織の見解を代表する物ではありません

 

 

Sponsored link

データの抽出 ①Specification of data extraction

データ抽出の際には、事前にプロトコールと仕様書をしっかりと固定して、専門家に助けを求めた上で抽出していこうね、という話です。

医療大規模データを扱った研究をする方でも、実際に自分でデータソースからデータを抽出した経験がある方は多くないのではないでしょうか?

ある程度医療大規模データの扱いに慣れている研究室や企業でしたら、抽出担当の方や部署がおり、その方に依頼すればデータを抽出してくれるという環境が多い気がしています。

ですので、医療大規模データの利用者側はそうした抽出担当の方に、「こんなデータが欲しいんです」という意志を誤解の余地なくお伝えしなければなりません。

そこで、事前規定された仕様書が必要になるわけですね。

仕様書には、

  1. データの始点と終点
  2. 抽出対象となる集団
  3. その他の必要な変数

などを記載しますが、ここでは仕様書をそのまま打ち込めばコードになる、くらいの詳細な情報を記載せねばなりません。

例えば、「肺がんの患者を抽出してほしい」とだけ伝えられても、抽出担当の方は

「肺がんって、どのコードよ?」

「C34と書いてあれば、小数点以下は問わないのか?」

「それとも小数点以下まで定義して、一部の肺がんだけ対象にしたいのか?」

と解釈に揺れてしまい、コードを書くことができません。

また、科学の基本である再現可能性を担保するという意味でも、仕様書は誰が見ても解釈に余地がないよう詳細な定義を掲載している必要があります。

データの抽出 ②Extraction of the study population

対象集団の抽出は、幾つかの包含基準・除外基準に則り、段階を分けて行います。

ここから先はガイドラインに書いてあることでなく、私個人の意見なのですが、私はデータ抽出の段階ではあまり厳しく包含基準・除外基準を適用しない方が良いと思っています。

例えば、「65歳以上、肺がん(C34の前方一致)で、肺がん切除術(オペコードXXX)を受け、術後2日以内に死亡していない患者」のような集団を抽出するとしたら、私ならデータ抽出の段階では「65歳以上の肺がん(C 34前方一致)患者」くらいまでに止め、より緩やかな定義での抽出を行なっています。

というのも医療大規模データベース研究では、データに実際に触れながらデザインの詳細を決定していくという性質もあるため、抽出段階でかなり絞った患者抽出を行なってしまうと、後々データを見てから「あ、ここの除外基準はあっちの方が適切だったな」と気付いても、手遅れになるからです。

データ抽出の頻回な依頼は抽出担当の方にとって負担となるため、極力一回で済むようにすべきです。

なのでデータの容量が許す限りは、データ抽出の段階ではある程度緩やかな定義で患者集団を抽出しておいた方が良いと考えています。

Sponsored link

データの抽出 ③Extraction of study variables

変数の抽出をお願いする際には、仕様書に以下のことを詳細に定義しておく必要があります。

  1. 変数が保存されているファイル(複数データセットからデータベースが構築されていることは頻繁にあるため)
  2. 変数の特定方法(コードリストなのか、フリーテキストなのか、アルゴリズムなのか)
  3. (同一変数に対して該当する時点で複数あるなら)特定の時点

繰り返しになりますが、データ抽出の仕様書は抽出担当の方が一読したときに「あー、ここのファイルで、このコードを入れて、んで時点はここね」という形で、流れるように対象となるデータを見つけられるような記載になっていなければなりません。

医療大規模データでは大量の変数を抽出する可能性が高いため、それ一つひとつに対して「この変数の定義曖昧でわからんのだが」という状況が発生すれば、抽出担当の方のご負担は非常に大きいことは想像に難くないでしょう。

データの抽出 ④Output

どのようなフォーマットでデータを抽出してもらうのか(文字列か数字かなど)、定義書ではっきりしましょうねというお話。

Sponsored link

データの抽出 ⑤Extraction from coded systems

仕様書にはコードリストを添付し、そして仕様書におけるそれぞれの抽出条件が、コードリストのどの部分に対応するかを明記しましょうという話。

なお、同じ疾患や医療行為をターゲットにしたコードも診療報酬改定の影響などにより年々変化している可能性があるため、データ抽出の対象となるそれぞれの時点でコードリストを作成する必要がある。

データの抽出 ⑥Extraction from non-coded system

wildcardsの使用、negationやannotationなどの非コードタイプの抽出条件を設定する際には、しっかり仕様書に書いておこうねという話。

データの抽出 ⑦Retrieval of additional data

他のデータベースから情報を追加する場合(患者報告のアウトカムや、電子カルテ外の情報など)は、それらのデータの収集方法及びオリジナルのデータベースから抽出したデータとどう結合するかも書いておきましょうね、という話。

終わりに

さて、今日は少し短めでしたが、データベースの抽出段階におけるお話をさせて頂きました。

 

次回の第四章は、Privacy and securityということで、医療大規模データベースを使用する上で非常に大切な点を解説していきます。

 

 

 

 

すきとほる疫学徒からのお願い

本ブログは、読者の方が自由に記事の金額を決められるPay What You Want方式を採用しています。

「勉強になった!」、「次も読みたい!」と本ブログに価値を感じてくださった場合は、以下のボタンをクリックし、ご自身が感じた価値に見合うだけの寄付を頂戴できますと幸いです。

もちろん価値を感じなかった方、また学生さんなど金銭的に厳しい状況にある方からのご寄付は不要です。

 

引き続き情報発信していく活力になりますので、ぜひお気持ちに反しない範囲でご寄付をお願い致します!

Sponsored link
薬剤疫学、製薬キャリアに関する最新情報はこちらから