こんにちは、すきとほる疫学徒です。
医療大規模データベースを行う際に、
「沢山データベースがあるけど、どうやって選んだらいいの?」
「そもそもデータベース研究の実現可能性って、どうやって調べるの?」
という方に向けて書いております。
なお、こちらの記事は第三部になりますので、初見の方はこちらの第一部、第二部からお読み頂くようお願いいたします。
こんにちは、すきとほる疫学徒です。 製薬企業で疫学研究をしておりますと、色々なところでデータベース事業者さんからお声をかけて頂くことがあるのですが、ここ数年でデータベース事業者さんや、事業者さんが扱う医療大規模データベース[…]
こんにちは、すきとほる疫学徒です。 医療大規模データベースを行う際に、 「沢山データベースがあるけど、どうやって選んだらいいの?」 「そもそもデータベース研究の実現可能性って、どうやって調べるの?」 […]
これまでの記事でもお伝えいたしましたが、本記事は以下の国際薬剤疫学会が作成したガイドラインをベースに作成されております。
今回お伝えする第三部は、Data extractionについてであり、「医療大規模データベースから、自分の研究に使うデータをどう抽出してくるか」ということを解説しています。
データの抽出 ①Specification of data extraction
データ抽出の際には、事前にプロトコールと仕様書をしっかりと固定して、専門家に助けを求めた上で抽出していこうね、という話です。
医療大規模データを扱った研究をする方でも、実際に自分でデータソースからデータを抽出した経験がある方は多くないのではないでしょうか?
ある程度医療大規模データの扱いに慣れている研究室や企業でしたら、抽出担当の方や部署がおり、その方に依頼すればデータを抽出してくれるという環境が多い気がしています。
ですので、医療大規模データの利用者側はそうした抽出担当の方に、「こんなデータが欲しいんです」という意志を誤解の余地なくお伝えしなければなりません。
そこで、事前規定された仕様書が必要になるわけですね。
仕様書には、
- データの始点と終点
- 抽出対象となる集団
- その他の必要な変数
などを記載しますが、ここでは仕様書をそのまま打ち込めばコードになる、くらいの詳細な情報を記載せねばなりません。
例えば、「肺がんの患者を抽出してほしい」とだけ伝えられても、抽出担当の方は
「肺がんって、どのコードよ?」
「C34と書いてあれば、小数点以下は問わないのか?」
「それとも小数点以下まで定義して、一部の肺がんだけ対象にしたいのか?」
と解釈に揺れてしまい、コードを書くことができません。
また、科学の基本である再現可能性を担保するという意味でも、仕様書は誰が見ても解釈に余地がないよう詳細な定義を掲載している必要があります。
データの抽出 ②Extraction of the study population
対象集団の抽出は、幾つかの包含基準・除外基準に則り、段階を分けて行います。
ここから先はガイドラインに書いてあることでなく、私個人の意見なのですが、私はデータ抽出の段階ではあまり厳しく包含基準・除外基準を適用しない方が良いと思っています。
例えば、「65歳以上、肺がん(C34の前方一致)で、肺がん切除術(オペコードXXX)を受け、術後2日以内に死亡していない患者」のような集団を抽出するとしたら、私ならデータ抽出の段階では「65歳以上の肺がん(C 34前方一致)患者」くらいまでに止め、より緩やかな定義での抽出を行なっています。
というのも医療大規模データベース研究では、データに実際に触れながらデザインの詳細を決定していくという性質もあるため、抽出段階でかなり絞った患者抽出を行なってしまうと、後々データを見てから「あ、ここの除外基準はあっちの方が適切だったな」と気付いても、手遅れになるからです。
データ抽出の頻回な依頼は抽出担当の方にとって負担となるため、極力一回で済むようにすべきです。
なのでデータの容量が許す限りは、データ抽出の段階ではある程度緩やかな定義で患者集団を抽出しておいた方が良いと考えています。
データの抽出 ③Extraction of study variables
変数の抽出をお願いする際には、仕様書に以下のことを詳細に定義しておく必要があります。
- 変数が保存されているファイル(複数データセットからデータベースが構築されていることは頻繁にあるため)
- 変数の特定方法(コードリストなのか、フリーテキストなのか、アルゴリズムなのか)
- (同一変数に対して該当する時点で複数あるなら)特定の時点
繰り返しになりますが、データ抽出の仕様書は抽出担当の方が一読したときに「あー、ここのファイルで、このコードを入れて、んで時点はここね」という形で、流れるように対象となるデータを見つけられるような記載になっていなければなりません。
医療大規模データでは大量の変数を抽出する可能性が高いため、それ一つひとつに対して「この変数の定義曖昧でわからんのだが」という状況が発生すれば、抽出担当の方のご負担は非常に大きいことは想像に難くないでしょう。
データの抽出 ④Output
どのようなフォーマットでデータを抽出してもらうのか(文字列か数字かなど)、定義書ではっきりしましょうねというお話。
データの抽出 ⑤Extraction from coded systems
仕様書にはコードリストを添付し、そして仕様書におけるそれぞれの抽出条件が、コードリストのどの部分に対応するかを明記しましょうという話。
なお、同じ疾患や医療行為をターゲットにしたコードも診療報酬改定の影響などにより年々変化している可能性があるため、データ抽出の対象となるそれぞれの時点でコードリストを作成する必要がある。
データの抽出 ⑥Extraction from non-coded system
wildcardsの使用、negationやannotationなどの非コードタイプの抽出条件を設定する際には、しっかり仕様書に書いておこうねという話。
データの抽出 ⑦Retrieval of additional data
他のデータベースから情報を追加する場合(患者報告のアウトカムや、電子カルテ外の情報など)は、それらのデータの収集方法及びオリジナルのデータベースから抽出したデータとどう結合するかも書いておきましょうね、という話。
終わりに
さて、今日は少し短めでしたが、データベースの抽出段階におけるお話をさせて頂きました。
これまでの三章で医療大規模データベース研究をする前に行うべき実現可能性調査について一通り記載させていただきました。
医療大規模データベース研究は、既にデータがあるから解析すれば何かしらの結果が出てしまう。
それが正しくとも間違っていようとも。
だからこそ、医療大規模データベース研究を行う者は、自分を厳しく律して、ほんとうに実現可能性がある時だけにこそ研究をやるという姿勢が必要になるわけですね。
すきとほる疫学徒からのお願い
本ブログは、読者の方が自由に記事の金額を決められるPay What You Want方式を採用しています。
「勉強になった!」、「次も読みたい!」と本ブログに価値を感じてくださった場合は、以下のボタンをクリックし、ご自身が感じた価値に見合うだけの寄付を頂戴できますと幸いです。
もちろん価値を感じなかった方、また学生さんなど金銭的に厳しい状況にある方からのご寄付は不要です。
引き続き情報発信していく活力になりますので、ぜひお気持ちに反しない範囲でご寄付をお願い致します!