こんにちは、すきとほる疫学徒です。
アカデミアや企業で盛んに医療大規模データベース(以下、医療DB)が行われるようになった背景には、使用できる医療DBの増加という要因があります。
私が観測できている範囲でも、使用可能な医療DBが日にひに増えてきており、医療DB研究を行う研究者には、「使用可能な医療DBを把握し、それぞれの正しい使いどころをアセスメントする能力」が求められるようになってきました。
そのような医療DBの乱立の中で、日本薬剤疫学会をはじめとし、いくつかの機関、研究者が主だった医療DBの概要を説明してくださっております。
こちらの記事では「もう一歩進んだ医療DBの理解を」をテーマに、それぞれの医療DBがどのようなリサーチクエスチョンと相性が良いかということを、具体例を添えて実践的に説明していきたいと思います。
なお、医療DBの運営者、設立年、サンプルサイズ、母集団、収集されている項目などの基礎的な情報には触れませんので、それらの情報は以下の日本薬剤疫学会による日本で使用可能な医療DBのまとめをご参照ください。
https://sites.google.com/view/jspe-database-ja2020/%E3%83%9B%E3%83%BC%E3%83%A0
・それぞれの医療DBを使った代表的な研究
・それぞれの医療DBが得意とするリサーチクエスチョン
データベースの説明
本日は特別編!!!
日本ではなく、世界のヘルスケアデータにアクセスできるデータベースを紹介します。
それも無料、たった1日で!
「腕を磨くために研究したいけど、アクセスできるデータがない」って人、結構いらっしゃるんじゃないでしょうか?
そんな人にこそ、本日紹介するDemographic and Health Survey(DHS)はおすすめです。
「無料って、なんかちゃっちいデータベースなんじゃないでしょうね?」と思ったそこのアナタ!
いえいえ、DHSはしっかりと質が担保された方法で集められたハイクオリティのデータベースでして、DHSを使った論文は毎月20本前後PubMedに登録されています。
掲載Journalも、Plos One、BMC系列のようなオープンジャーナルから始まり、Lancet系列のようなHigh Impact FactorなJournalにも掲載されています。
「今すぐあなたもアクセスできるデータベースを使って、Lancetに掲載された論文がある」、それだけでワクワクしてきませんか?
きっとこの記事を読んでらっしゃるみなさんは、「えっ、それどんなデータベースなの?もっと教えて!」とウズウズしてきているはずッ!
では早速、データベースの説明に入っていきましょう。
どこから集められたデータなの?
DHSは米国のUnited States Agency for International Developmentが提供する公的なデータベースです。
低中所得国に暮らす人々の健康や栄養に関する関する膨大な情報を個人レベルで収集しており、国を代表するHousehold Dataとなっています。
どこから集められているかを表したFigureがこちら。
色の濃さは、それぞれの国で何回調査が実施されているかを表しています。
国名にするとこちら。
ご覧のように、文字通り世界中の低中所得国からデータを集めていることが分かりますね。
いつ集められたデータなの?
DHSはWave形式で5年ごとに各国からのデータを収集しています。
さらっと書いたけど、とんでもない規模のプロジェクトですよね。
1985年ごろにWave 1が始まり、現在ではWave 8の調査が走っています。
ただ、全ての国でWave 1~8の調査を実施してきたわけではなく、徐々に参加国が増えたり、また国内情勢の悪化で途中の調査が抜けていたりと、国によって何年ぶんのデータが蓄積されているかは違うので、要注意です。
さて、このWave 1~8ですが、その都度質問フォーマットを更新してはいるものの、複数の変数は1990年から現在に至るまで、継続して収集されて続けています。
これにより、国レベルでのヘルスケアデータの経年変化を調査することができるというわけですね。
たとえば、こちらの調査はSub-Saharan African countriesにおける過去12ヶ月のHIVテスト受診率のトレンドを評価しています。
誰から集めたデータなの?
DHSは特に母子保健に特化して世界中の低中所得国から、各国を代表するHousehold dataを構築することを目的にしています。
ですので、対象は15-49歳の女性およびその世帯構成員です。
どのように対象を見つけているのでしょうか?
DHSでは、代表性のあるデータを収集するため、2段階のランダムサンプリングを実施します。
まず、各国を複数のRegionに分けます。
そして、各Regionの人口を考慮して、そこから収集するサンプルサイズを決定します。
その次は、各Regionの中で都市部/田舎のバランスを考慮して、データ収集を行う市区町村をランダムサンプリングします(1段階目)。
さらに、サンプリングされた市区町村からHouseholdのリストを入手し、さらにデータ収集を行うHouseholdをランダムサンプリングします(2段階目)。
より詳細に知りたい方は、こちらの公式動画をご覧になると良いでしょう。
余談ですが、DHSでは世帯ごとにWeightという重み付けの変数が用意されており、この変数を用いることで、収集されたデータから国全体のデータを推測できるようになっています(収集データの5歳以下死亡率から、国全体のそれを推測するなど)。
Weightの詳細が知りたい方は、以下の動画をどうぞ。
さて、こうしてサンプリングの対象となったHouseholdのうち、誰のデータを集めているのか。
基本的には15-49歳の女性を中心とし、Householdの構成員全てのデータを集めます。
これらの個々の構成員に対して一行のデータが与えられ、それがDHS全体のデータセットを構成するというわけですね。
ちなみに、各国各年のDHSデータセットは、いくつかのファイルから構成されます。
・Household record(そのDHSの対象全員のデータ)
・Women record(女性のデータ)
・Men record(男性のデータ)
・Child record(子供のデータ)
などです。
詳細はこちらの動画をどうぞ。
ですので、研究の対象者に応じてダウンロードしたDHSのうち、どのデータを使うのか選びましょう。
どんなデータを集めているの?
さて、恐らくみなさんが最も気になっているのはここでしょう。
DHSはどんなデータを集めているのか。
ここがDHSの凄いところなのですが、DHS、各個人からメチャクチャな数の変数を集めています。
数えたことないので総数は不明ですが、多分数百個は超えているはずです。
データのセクションだけでも、これだけの量があります。
DHSがどれだけ豊富なデータを集めているかを説明するために、たとえば「水」に関する変数を紹介しましょう。
まずは飲み水のソースがどこか(水道水という項目だけでも、4つも選択肢があります)。
次、料理や手洗いに使う水のソースはどこか。
水源はどこにあるか。
そこまで何時間くらいかかるか。
誰が水を汲みに行くか。
先月、水を十分に入手できなかったことはあるか。
水を安全に使うために普段どんな工夫をするか?
めっちゃ細かいですよね…
考えつく限りの変数に関して、これくらいの細かさでデータが収集されています。
こちらのPDFはDHSで収集する全変数のリストですが、このPDFの長さを見れば、膨大な種類の変数が収集されているということがお分かり頂けるかと思います。
https://dhsprogram.com/pubs/pdf/DHSG4/Recode7_DHS_10Sep2018_DHSG4.pdf
どんな変数があるのかじっくり知りたいという方は、こちらからどうぞ。
Household data: DHS8_Household_QRE_EN_8Apr2022_DHSQ8 (PDF, 121K)
Womans data: DHS8_Womans_QRE_EN_8Apr2022_DHSQ8 (PDF, 381K)
Mans data: DHS8_Mans_QRE_EN_8Apr2022_DHSQ8 (PDF, 156K)
変数を把握するだけでも一苦労で、私はDHSを使い始めて3年くらいになりますが、いまだに「こんな変数あったんかい!」という変数に遭遇します。
どうやってデータの質を担保しているの?
これだけデータを集めていると、「そのデータ、本当に信頼できるの?」と思うのが人の心。
しかし、ここがDHSの腕の見せどころ!
DHS、データの質を担保するために幾つかのステップを設けております。
まずデータ収集ですが、こちらはDHSのトレーニングを終えて質が担保されたインタビュワーが調査対象となった全ての世帯と一軒一軒訪問しています。
これにより、「文字の読み書きができない人」からもデータ収集を行なったり、自記式でデータ収集を行なった際に起こりうる適当な入力であったり欠損を防いでいるわけです。
そのおかげで、DHSはこれだけの変数を集めているにも関わらず欠損が少なく、ほとんどの変数で90%以上の入力率を達成できています。
また、調査票が集まった時点で、想定した枚数の調査票が集まっているか、またデータがしっかりと記載されているかを確認します。
その後、2人の入力者が独立して全てのデータをパソコンに入力、さらに不一致の有無を確認します。
長くなるためこれ以降の詳細は省きますが、この後のデータのクリーニング、保存においても厳しい手順を遵守しています。
詳細はこちら。
https://dhsprogram.com/data/Data-Processing.cfm
このように、DHSはただ世界中から数多くの情報を集めるだけではなく、しっかりとその質も担保しているために、毎月数多くのDHS論文が発表されているわけですね。
どうやってデータを入手するの?
データを入手するためには、まず対象となる国・年を選択します。
一覧はこちら。
https://dhsprogram.com/data/available-datasets.cfm
さて、データを入手するためには、まずDHSのユーザーアカウントを作りましょう。
こちらです。
https://dhsprogram.com/data/new-user-registration.cfm
すると、以下の情報を入力するページが開かれます。
Project Title: プロジェクト名
Co-researchers: 共同研究者
Description of Study: 研究内容(at least 300 charactersとのことですが、300字ぎりぎりの超サマリーでも全然申請通るので大丈夫です)
このページの次は、申請したいデータセットの選択です。
一覧表になっており、チェックマークをつけるだけで欲しい年・国のデータセットを申請できるようになっています。
もちろん複数申請もOKで、私は過去に全年・全世界分(つまり全て)のDHSが必要だったので、試しに申請してみたのですが、全く問題なく通りました。
申請から許可が得られるまでは数日とのことですが、私の経験だと近年は半日〜1日もあれば申請が下りています。
たったこれだけの手間で、Top Journalに掲載された論文が使っているのと同じデータを、それも全世界・全年の豊富なデータを手に入れられるなんて、なんて贅沢なんでしょう。。。
ユーザー登録、ダウンロードの詳細はこちらからどうぞ。
DHSに慣れるために
DHSは膨大なデータセットであり、その解説資料もかなりの数があります。
私も、使い始めて3年が経った今でも、それらの資料を眺めてDHSの勉強を続けています。
みなさんも使い始めは「何がどこにあるのか分からん」という気持ちになるかもしれませんが、そこは地道に資料をみて、解決していきましょう。
特に最初に見ておいた方が良い資料がありますので、紹介します。
- DHSの変数概要:https://dhsprogram.com/Methodology/Survey-Types/DHS.cfm
- DHSを使った論文の検索サイト:https://dhsprogram.com/publications/Journal-Articles-Search.cfm
- DHSの詳細なガイドライン:https://www.dhsprogram.com/pubs/pdf/DHSG1/Guide_to_DHS_Statistics_DHS-7_v2.pdf
- DHSの公式解説YouTube:https://www.youtube.com/user/DHSprogram
おすすめは、DHSの公式解説YouTubeのデータベース解説動画を一通り見て、その他の資料に手を広げていくことです。
ただ、本当に膨大な資料があるので、その次のステップとしては「DHSの変数概要」をさっくり見て、あとはDHSを使った論文をひたすら読み込んでいき、「へー、こんな変数もあるんだ」というふうに興味ドリブンで知識を広げていくと良いと思います。
こちらでは日本で使えるデータベースを紹介しておりますので、あわせてどうぞ。
こんにちは、すきとほる疫学徒です。 アカデミアや企業で盛んに医療大規模データベース(以下、医療DB)が行われるようになった背景には、使用できる医療DBの増加という要因があります。 私が観測できている範囲でも、使用可能[…]
こんにちは、すきとほる疫学徒です。 アカデミアや企業で盛んに医療大規模データベース(以下、医療DB)が行われるようになった背景には、使用できる医療DBの増加という要因があります。 私が観測できている範囲でも、使用可能[…]
こんにちは、すきとほる疫学徒です。 アカデミアや企業で盛んに医療大規模データベース(以下、医療DB)が行われるようになった背景には、使用できる医療DBの増加という要因があります。 私が観測できている範囲でも、使用可能[…]
すきとほる疫学徒からのお願い
本ブログは、読者の方が自由に記事の金額を決められるPay What You Want方式を採用しています。
「勉強になった!」、「次も読みたい!」と本ブログに価値を感じてくださった場合は、以下のボタンをクリックし、ご自身が感じた価値に見合うだけの寄付を頂戴できますと幸いです。
もちろん価値を感じなかった方、また学生さんなど金銭的に厳しい状況にある方からのご寄付は不要です。
引き続き情報発信していく活力になりますので、ぜひお気持ちに反しない範囲でご寄付をお願い致します!