薬剤アウトカムシリーズ② バリデーション研究ってなに？

2022年8月17日
疫学

こんにちは、すきとほる疫学徒です。

このシリーズでは、アウトカムの誤測定がもたらす影響、誤測定を減らすための妥当性研究、PMDAによる妥当性研究のガイドラインなどに触れていくことで、「薬剤疫学研究において、なぜより正確なアウトカム定義を用いねばならないのか、そしてどうすれば正しいアウトカム定義を用いることができるのか」ということをお伝えしていきたいと思っています。

シリーズの第一回である今回は、アウトカムの誤測定が研究にどのような影響を与えるかを解説しました。

第二回は、そんなアウトカムの確らしさを確認するための研究手法であるバリデーション研究について解説します。

・バリデーション研究とは何か
・PMDAのバリデーション研究ガイドラインのポイント
・PMDAがガイドラインで提案する疑似感度とは何か

本ブログは、私が業務上知り得たいかなる情報にも基づかず、一般論もしくは広く公開された情報のみに基づき執筆されています

本ブログは、私個人の責任で執筆され、所属する組織の見解を代表する物ではありません

1 バリデーション研究とは何か
2 国内のバリデーション研究の例
- 2.1 DPCデータベースのバリデーション研究
- 2.2 JMDCデータベースのバリデーション研究
3 バリデーション研究に対するPMDAのガイドライン
- 3.1 バリデーション研究の必要性について
- 3.2 バリデーション研究の方法について
4 All Possible Casesについて
5 終わりに
6 すきとほる疫学徒からのお願い

バリデーション研究とは何か

医療大規模データベース研究と切っても切り離せない研究、それがバリデーション研究です。

端的に言えば、バリデーション研究とは「データベース上で定義された患者のアウトカムが、その患者の真のアウトカムとどれだけズレているか」ということを確認するための研究です。

「データベース上のアウトカムと真のアウトカムがズレるってどういうこと？」という方は、こちらのアウトカムシリーズ第一回からまずはご覧になってください。

薬剤アウトカムシリーズ① アウトカムの誤測定がもたらす影響

例えば、心筋梗塞をアウトカムにした医療大規模データベース（診療報酬データベース）研究を行うとしましょう。

この時、アウトカムをどう定義しますか？

今回使用するのは診療報酬請求データベースなので、アウトカム定義に使えるデータは診療報酬に記載されている病名コード（ICD-10 code）、日本語病名、処置コード、薬剤コードあたりですね。

これらを組み合わせて、より”正確に”その患者の真のアウトカムを測定するための定義、アルゴリズムを作成します。

最もシンプルな定義方法は、

”少なくとも一度、ICD-10 codeのI21（急性心筋梗塞）が記録されている”という定義でしょう。

「いやいや、一度だけでは間違ってI21が入力された可能性だってある」

ならば、”少なくとも2ヶ月間、ICD-10 codeのI21（急性心筋梗塞）が記録されている”という定義ではでどうでしょうか？

「いや、日本の病名はあてにならない。何らかの処置、薬剤投与がされていて初めて心筋梗塞と定義できる」

ならば、心筋梗塞に特異的な処置や薬剤のコードを組み合わせて定義してはどうでしょうか？

このように一つの疾患を定義するにしても、さまざまな定義方法がありえます。

最もシンプルに”少なくとも一度、ICD-10 codeのI21（急性心筋梗塞）が記録されている”という定義を用いれば、心筋梗塞の可能性のある患者を広く拾い上げることができるかもしれませんが、一方で本当は心筋梗塞でないけれど誤ってI21を付与された患者を拾い上げてしまうリスクも上がります。

つまり、感度は高いが、特異度は低い状態ですね。

一方、より厳しい定義を設定し、”少なくとも2ヶ月間、ICD-10 codeのI21（急性心筋梗塞）が記録されている”＋処置コードX＋薬剤コードYのような定義をすれば、心筋梗塞でない患者をしっかりと除外することができる反面、真の心筋梗塞患者までも除外してしまうリスクも上がります。

つまり、特異度は低いが、感度は高い状態ですね。

このように感度と特異度はトレードオフの関係になっており、どの指標を優先するかは状況によって変わります。

それについてはこちらの記事で解説しています。

データベース研究における妥当性指標間の優先順位の付け方

さて、このようにアウトカム定義においては様々なアルゴリズムを設定することができますが、一体どれを私たちの研究のメインアウトカムにしてあげれば良いのでしょうか？

「感度は低くて良いから、特異度が高いアウトカムが良い」といっても、実際にそのアルゴリズムの妥当性指標がどの程度なのかが分からなければ、決めようがありませんよね。

また、アウトカムの誤測定は研究結果にバイアスをもたらす可能性がありますが、誤測定の程度がわからなければ、どのくらいのバイアスが生じているかを考察することができません。

そこで登場するのが、バリデーション研究です。

バリデーション研究では、同一の患者に対して”ゴールドスタンダードにおけるアウトカム判定”と”アルゴリズムによるアウトカム判定”の2つの判定結果を入手し、その適合度を測定します。

例えば、2019年1月から2019年2月にかけて医療機関Xに入院した患者における、心筋梗塞のバリデーション研究を行うとしましょう。

この期間における入院患者は100名でした。

まずゴールドスタンダード、つまりその患者の真のアウトカム判定を明らかにします。

ゴールドスタンダードの決め方はバリデーション研究によって様々ですが、メジャーな方法の一つが、医師による電子カルテレビューですね。

一人の医師の判定ですと、ヒューマンエラーが起こる可能性があるため、カルテレビューは少なくとも2名の独立した医師によって行われます（”独立した”とは、判定医同士が互いに干渉しないということです）。もし最終的に二人の医師の判定結果に食い違いがあった場合には、さらに独立した三人目の医師が判定を行う方法や、二人の医師の議論によって決めるなどの方法をとります。

レビュー開始前には、研究者らが”このような状態であれば心筋梗塞といえる”という定義書を作成します（例えば、入院前後〜日に記録されたカルテにおいて、検査値Xが〜以上、画像検査で〜でありのような）。患者ごとに判定基準が異なってしまっては、一貫した判定結果が得られないからですね。

この方法により、100人すべての患者に対してゴールドスタンダードにおける心筋梗塞判定が下されました。

次はアルゴリズムによるアウトカム判定ですね。

こちらはシンプルで、研究で使用しようとしているアルゴリズムに従い、100人の患者の診療報酬請求データを使い、アウトカム判定を行なっていくだけです。

複数のアルゴリズムの妥当性を検討したい場合には、それぞれのアルゴリズムに従って判定を行います。

上記のプロセスにより、100人すべての患者に対して、

ゴールドスタンダードにおけるアウトカム判定：陽性 or 陰性

アルゴリズムにおけるアウトカム判定：陽性 or 陰性

の2種類の判定がくだされたことになります。

つまり、こちらの2×2表ができたということですね。

あとは、以下の計算式で妥当性指標を計算してやれば、それぞれのアルゴリズムの妥当性が判明します。

感度：a/(a+b)*100
特異度：d/(c+d)*100
陽性的中度（PPV）：a/(a+c)*100
陰性的中度（NPV）：d/(b+d)*100

ちなみに、上記で紹介したバリデーション研究の方法は感度・特異度を算出する場合のものです。

研究によっては、これらを算出せず、PPV・NPVのみを算出しているものもあります。

この場合は、判定の対象となる患者を”医療大規模データベース内でアルゴリズム判定陽性・陰性となった患者”から抽出します。

こうすると、2×2表の横軸で表現されている”真の心筋梗塞患者全体”、”真の非心筋梗塞患者全体”が不明のままですので、感度・特異度を算出することができません。

それだけ聞くと、「え、じゃあそんなことやらないでゴールドスタンダードの電子カルテ側から判定患者を特定するアプローチを取ればいいじゃん？」と思われるかもしれません。

しかしながら、この方法は判定医の負担が大きく、現実的には実施できないという状況も少なくありません。

例えばPPVのみを計算したい場合は、データベース側で心筋梗塞陽性となった患者に対してのみカルテレビューを行えば研究終了です。

一方感度を算出するためには、母集団において真の心筋梗塞患者の全てを特定しなければなりませんので、母集団（例の場合は、2019年1月から2019年2月にかけて医療機関Xに入院した患者）すべての電子カルテをレビューせねばなりません。

そのためバリデーション研究の中には、PPVのみを算出しているという簡易版バリデーション研究も珍しくありません（PPVを算出するだけでも大変な労力がかかりますので、簡易版というのは適切な表現ではないと思いますが、あくまでも相対的に見てということです）。

国内のバリデーション研究の例

さて、ここからは実際に日本国内で行われたバリデーション研究を紹介していきましょう。

DPCデータベースのバリデーション研究

1本目はこちら、東京大学の山名先生たちが行なった研究で、DPCデータベースを用いた研究では必ずと言っていいくらい引用されています。

Yamana H, Moriwaki M, Horiguchi H, Kodan M, Fushimi K, Yasunaga H. Validity of diagnoses, procedures, and laboratory data in Japanese administrative data. J Epidemiol. 2017 Oct;27(10):476-482. doi: 10.1016/j.je.2016.09.009.

「使用しているデータベースの妥当性はどのくらいなのか？」というレビュワーコメントは、医療大規模データベース研究を行う際には必ずつきまとうコメントであり、厳しいレビュワーの中には「妥当性が不明ならば、掲載に値しない」と判断する方もいるでしょう。

そんな中で、山名先生らがこちらのバリデーション研究を行なってくださったおかげで、エビデンスを持ってDPCデータベースの妥当性を示すことができるようになりました。

極めて価値の大きい研究だと思います。

このバリデーション研究では、日本のDPC病院4施設から、2014年4月1日〜2015年3月31日に入院した患者よりランダムにそれぞれ100名を抽出し、合計400名分のカルテレビューを行なっています（本当に大変な作業だったことでしょう…）。

アウトカムとしては、主としてCharlson併存疾患指数に含まれる21病名を対象にし、ICD-10 codeの妥当性を評価しています。

なおこの研究はカルテレビュー、つまり母集団からアプローチしていますので感度・特異度を算出することができています。

この結果をみますと、DPCデータベースにおいてはICD-10 codeのみで病名定義を行なった場合、特異度は高いが感度は低い、つまり”真の陰性患者には病名コードが付与されていない可能性は高いが、真の陽性患者に病名コードが付与されている可能性は高くはない”と言えるでしょう。

言い換えると、ICD-10 codeのみでアウトカム判定を行うと、真の陽性患者を取りこぼしてしまっている可能性が高いということです。

なぜかというと、診療報酬請求と電子カルテにおける病名記載の目的が異なるからです。

診療報酬請求における病名記載の目的は医療費の請求です。

その病気に対して処置や投薬をおこなった場合には、医療費請求のためにその病名を診療報酬に記載する必要がある反面、医療費請求の必要がなければ、たとえ患者がその病気を有していたとしても、わざわざ診療報酬に記載する必要がありません。

一方、電子カルテにおける病名記載の目的は、言わずもがな患者マネジメントのためです。

そのため、その患者が有する病気は可能な限り全て電子カルテに入力してあげる必要があります。

このように診療報酬請求と電子カルテにおける病名記載の目的が異なる結果として、電子カルテには病名記載があるが診療報酬請求にはない、つまり感度が低いという結果が生じているわけです。

ちなみに山名先生らの研究では、ありがたいことに処置コードの妥当性も評価してくださいっています。処置コードは直接的に診療報酬の発生につながるコードですので、ご覧の通り4つすべての指標において高い精度となっていることが分かります。

JMDCデータベースのバリデーション研究

正確にはJMDCデータベースではなく、JMDC社が参加して行なった診療報酬請求データのバリデーション研究です。

データベースの特性上、JMDCデータベースのような保険者DBはバリデーション研究の実施が不可能です。

保険者DBには、被保険者＋被扶養者が受診した医療機関全てから診療報酬が収集されますので、そのうち数箇所の医療機関でバリデーション研究を行ったとしても、集団代表性のある結果を生み出すことはできません。

DB内の患者が訪れている医療機関が日本中、大小何百箇所もあるのに、たった二箇所の医療機関でバリデーション研究を行なっても、その結果を持ってしてDB全体のバリデーションを行ったとはいえませんよね。

というわけで、これから紹介するバリデーション研究は、1本目の研究同様に特定の医療機関の診療報酬請求データをバリデートした研究です。

Fujihara K, Yamada-Harada M, Matsubayashi Y, Kitazawa M, Yamamoto M, Yaguchi Y, Seida H, Kodama S, Akazawa K, Sone H. Accuracy of Japanese claims data in identifying diabetes-related complications. Pharmacoepidemiol Drug Saf. 2021 May;30(5):594-601.

母集団としては、2018年9月に新潟大学病院に入院した1379名の患者です。

2人の専門医が独立して電子カルテレビューを行いました。

妥当性を検証したアウトカムは糖尿病に関連したアウトカムとして、心血管疾患、心不全、非外傷性脳出血、脳梗塞、脳血管障害、透析を対象にしています。

こちらの研究の特徴としては、ICD-10コードのみのアウトカム定義の妥当性を検証した山名先生らの研究と違い、各アウトカムに対して複数のアウトカム定義を設定し、その妥当性を比較しているところです。

このように、病名コード、処置コード、薬剤コードを組み合わせて、アウトカムごとに9つの定義を作成しています。

このように複数アルゴリズムを比較してもらえると、同じアウトカムに対しても状況に応じて定義方法を選択することができるので、ありがたいですね（すさまじい手間がかかったでしょうに、本当に感謝です）。

アルゴリズムの数が多いため紹介は省きますが、糖尿病に関連したアウトカムを対象に医療大規模DB研究を行う方には大変参考になる研究だと思いますので、ぜひご覧になると良いと思います。

バリデーション研究に対するPMDAのガイドライン

さてこのようなバリデーション研究ですが、医薬品行政における規制当局であるPMDAはガイドラインを公表しています。

https://www.mhlw.go.jp/web/t_doc?dataId=00tc5226&dataType=1&pageNo=1

バリデーション研究ってこういうものですよ、

こういう時に必要ですよ、

具体的にはこうやってくださいね、

という考えをまとめたものですね。

例に漏れず、行政文章らしくまぁ読みやすくはないのですが、ここからはそんなガイドラインのポイントを紹介していきたいと思います。

ちなみに、このガイドラインに書いてあることは「絶対に守りなさい」という法律ではなく、あくまでも行政側の一意見を示したに過ぎないものですので、合理的理由があればバリデーション研究を実施しない、もしくはこのガイドラインとは異なる方法で実施することも基本的には可能なはずです。

それは、本ガイドラインの以下の記載からも読み取れます。

本文書は、製販後DB調査で用いるアウトカム定義についてバリデーションを実施する際の基本的な考え方を述べたものであり、円滑なバリデーションの実施を促進することを目的とする。なお、学問の進歩等を反映した合理的根拠がある場合には、必ずしも本文書に示した方法を固持するよう求めるものではない。

おそらく、これから紹介する内容を素直に「完璧にこれに準拠しないといけないのか」と思ってしまうと、「そんなことできるわけねーだろ」と匙を投げたい気分になると思うので、あくまでも目指すべきゴールの一つであるというイメージでお読み頂ければと思います。

バリデーション研究の必要性について

製造販売後にデータベース調査を実施する方にとって最もきがかりなのは、「一体いつバリデーション研究が必要になるのか」ということでしょう。

製販後DB調査結果の評価に当たりアウトカム定義の妥当性の検討が重要であるため、バリデーション実施計画については、本文書を参考に検討した上で、バリデーションの必要性も含め、あらかじめ独立行政法人医薬品医療機器総合機構(以下「PMDA」という。)と相談することが望ましい。

ガイドラインのこちらの記載の通り、バリデーション研究の必要性に関しては企業からPMDAに相談することを要求されています。

ですので、「何も言わずにしれーっとバリデーション研究なしでデータベース調査をやった」みたいなことは許容されないわけですね。

仮に不要と判断する場合には、その理由を説明する義務が企業側にあると認識した方が良いでしょう。

また、以下のようにも書かれています。

バリデーションの実施に当たっては、医療機関や医療情報データベース取扱事業者の協力が必要不可欠であることから、バリデーションを計画・実施する者(製薬企業等)は、バリデーションの重要性や必要性等について理解が得られるように、医療機関や医療情報データベース取扱事業者に十分に説明する必要がある。

これまでも説明した通り、バリデーション研究の実施には莫大な労力がかかりますので、もし実施者側である医療機関の合意が得られなかった場合には、実施ができなくなってしまうというリスクもあります。

PMDAはバリデーション研究を要求している、でも医療機関は協力してくれないとなると、どういう事態になるのかはちょっと想像したくないですね…

ですので、製造販売後調査の枠組みでデータベース研究を計画する際には、必ずセットで同時期にバリデーション研究の必要性、実現可能性を検討しておくことが求められます。

バリデーション研究は、その性質上、実施者（判定を行う医師）のメリットが小さく、一方で結果を利用する者（データベース研究の実施者）のメリットが大きいという、コストと成果のねじれを有しています。

実施者は激務である日常臨床の合間を縫って、せかせかとゴールドスタンダードの判定を進めていきますが、日本のバリデーション研究がImpact Factorの高い国際誌されるには壁があり、IFという観点からは良い業績が期待できないこともしばしばです（もちろん、バリデーション研究はデータベース研究の土台を支える重要な研究であり、日本のデータベース研究を推進する上での科学的貢献は極めて大きいと私は考えていますが）。

一方で、結果を利用する側は、そうしてせかせかと実施者が積み上げてくださった科学的貢献を引用さえすれば、自分のデータベース研究におけるアウトカム妥当性を示すことができるため、フリーライドが起きやすい状態になっています（論文が引用されることも科学的業績ですので、フリーライドという表現が正しいか微妙なのですが）。

となると、実施者からしてみれば「私があんなに苦労してカルテレビューしたのに、他の人は苦労せずアウトカムの妥当性を示せちゃうのか」と思うのが人間らしさですよね。

というわけで、バリデーション研究に協力してくれる医療機関を探すのは、本当に大変で、「見つからなかった時」のリスクヘッジも準備して、研究計画を立てるべきだと考えます。

さて、上で紹介した文章から「なるほど、こういう時はバリデーション研究が必要なんだね」という具体的なイメージが湧いてきましたでしょうか？

くるわけないですよね。

このガイドラインには、”本文書の適用範囲”というチャプターがありまして、そこでは以下のように述べられています。

本文書の適用範囲は、再審査及び再評価申請のための製販後DB調査であって、具体的な安全対策措置等の主たる根拠となることを目的として実施される調査で用いるアウトカム定義について、バリデーションを実施する場合である。

分かっ…いや、わからねぇ…

そうなんです、分からないんですよ。

抽象的過ぎます。

というわけで、結局はこのガイドライン単独で企業側がバリデーション研究の要否を決定することは不可能だと思いますので（将来的にPMDAから「いや相談来てないでしょ、やってね」とか言われる可能性を考えれば、独断決定はあまりにもリスキー過ぎます）、製販後DB調査の際には必ずPMDAにバリデーション研究の要否を相談した方が良いでしょう。

バリデーション研究の方法について

本ガイドラインでは、バリデーション研究の方法を詳細に説明していますが、いくつか注意した方が良い点があるので、ピックアップします。

専門家への相談について

アウトカム定義のバリデーションを実施する際には、実臨床での状況を正確に理解した上で、薬剤疫学的な観点から考慮すべき事項等が十分に検討できるよう計画することが重要である。そのためには、バリデーションを計画・実施する者(製薬企業等)が十分に検討すべきであるが、例えば、計画段階から以下のような専門性を有する有識者の助言も得ながら検討することが望ましい。
・次の点について、用いる医療情報データベースに含まれる医療機関又はその可能性のある医療機関での診断、治療等に精通している臨床経験豊富な医師。
-製販後DB調査で対象とする医薬品の効能・効果
-製販後DB調査の対象となるアウトカム
・医療情報を専門とし、アウトカム定義のバリデーションに精通している有識者
・薬剤疫学又は生物統計を専門とし、アウトカム定義のバリデーションに精通している有識者
・電子レセプト等の医療情報の記録や処理に精通している診療情報管理士

既に述べたように、アウトカム定義の作成には実臨床やコーディングのプラクティスへの深い理解が必要です。

ですので、定義作成の際には上で述べている専門家に必ずコンサルするようにしましょう。

ドメイン知識なしでアウトカム定義を作成することは不可能です。

対象となるアウトカムの明確化

医薬品リスク管理計画に挙げられた安全性検討事項について、製販後DB調査を計画する場合は、その対象となるアウトカムについてアウトカム定義を検討することになる。数ある医療情報を組み合わせて適切にアウトカム定義を作成するためには、肺炎、心不全といった疾患の分類だけでなく、調査すべき懸念事項を踏まえ、重症度等も含めて具体的に検討したい事象がどのような事象であるのか、臨床的観点から検討し、明確化する必要がある。

対象とするアウトカムは厳密に決める必要があります。

心筋梗塞！

というだけでなく、どの程度の重症度の心筋梗塞なのか、オペや薬剤投与を必要とするものなのか、などですね。

このように厳密に対象アウトカムを決めておかないと、実際にアウトカム定義を作成する段階で、どのような要素を盛り込めば良いか検討がつかなくなってしまいます。

作成するアウトカム定義の数

なお、一般的には、製販後DB調査で用いるアウトカム定義を複数の候補の中から適切に選択するため、対象となるアウトカムについて、一つではなく数個から十数個のアウトカム定義を作成し、各アウトカム定義のPPV、感度等の指標を算出することが推奨される。

こちらは具体例として紹介した新潟大学の妥当性研究が実施していたことですね。

一つのアウトカム定義に対してバリデーション研究をやったところで、その定義が最適なのか、それとも他に良い定義があるのか判断することができません。

そのため、実施の際には同一アウトカムに対しても複数の定義を作成し、それぞれに対して妥当性指標を算出することが推奨されています。

アウトカム定義の一般化可能性について

アウトカムの診断方法や治療介入が、製販後DB調査の対象集団において特殊である等、製販後DB調査で対象とする集団が、バリデーションにおける対象集団と患者背景等の観点で同様とはみなせない場合には、同じアウトカム定義であっても、製販後DB調査における対象集団に限定して、改めてバリデーションを実施する等の対応が求められることもある。

ちょっとややこしい書き方ですが、要は既に妥当性が証明されたアウトカム定義でも、その証明を行った集団と、あなたの製販後DB調査の対象となる集団が質的に異なっていれば、そのアウトカム定義は援用できないかもしれませんよ、と言っています。

つまり、アウトカム定義の使い回しがNGとなる場合があるということですね。

ですので、あなたが対象とするアウトカムに対し、既に先行研究によって妥当なアウトカム定義が示されているとしても、「その研究の結果を、今回の研究の集団にも適用できるかどうか」と考える必要があります。

特に海外のバリデーション研究の結果を日本に外挿しようとする際には要注意です。

バリデーション実施施設について

アウトカム定義のバリデーションは、製販後DB調査で用いる医療情報データベースに含まれる全ての医療機関において実施することが理想的ではあるが、多くの場合、全ての医療機関での実施は困難であるため、バリデーション実施施設を選定する必要があり、時には医療情報データベースに含まれない医療機関での実施も想定される。そのため、バリデーション実施施設は、利用する医療情報データベース全体への一般化可能性等についても検討できるよう、原則として複数施設を選定すべきである。
バリデーション実施施設の選定に当たっては、製販後DB調査に用いる医療情報データベースに含まれる医療機関の特徴とバリデーション実施施設の特徴を、以下の点等について比較して、検討結果に影響を与える重大な差異がないことを確認し、選定したバリデーション実施施設が製販後DB調査で用いる医療情報データベースに含まれる医療機関の特徴に対して代表性を有することを説明できるようにしておく必要がある。

要するに、

DB内の全医療機関でのバリデーション研究が無理なのは分かる、

だからせめて複数でやって、

そんでそれらの施設はDB全体を代表性を持つようにして

ということです。

これは文言通り捉えてしまうと、バリデーション研究の実現可能性がとてつもなく下がります。

「複数でやって」というところは分かりますが、「その複数施設でDB全体の施設の代表性を持つように」というのは、無理がある要求でしょう。

例えば、MDV DBには2020年1月20日時点で、397施設が登録されています¹。

1 https://www.jspe.jp/committee/pdf/db20200120MN.PDF

全てがDPC病院といえど、その特性は様々でしょう。

このうちたった2施設にてバリデーション研究を実施して、397施設全てに外挿可能と言い切るのは、かなり苦しいと思います。

ですので、ここでの「全体の代表性」というのはとても緩やかに捉えてあげる必要があり、例えば、

・大学病院と非大学病院の2施設

・都心と地方の2施設

・大規模と中規模の2施設

のような切り分けのいずれかに該当する2施設での実施をもって、お許し頂くより他ないと考えています。

判定表の作成について

真のケースの判定に当たっては、可能な限り客観的に判断できるように判定基準及びその方法を明確にする必要がある。一般的には、臨床検査値、又は真のケースが収集されているレジストリ等(例：院内がん登録)での情報に基づき判定する方法やカルテレビューに基づき判定する方法がある。それぞれの手法における留意点は以下のとおりであるが、どの手法を用いた場合であっても、統一的な基準に基づき判定できるように、症例の判定基準を具体的かつ客観的に記述した判定票等をあらかじめ専門医の意見を踏まえて作成し、判定者は当該判定基準を理解した上で実施する必要がある。

先に述べたように、ゴールドスタンダード（e.g., 電子カルテ）の判定においては、統一的な基準に基づき判断できるよう、判定票を作成しておく必要があります。

疾患の有無、もしくはそのタイプや重症度に関する判定ですので、学会ガイドラインのような標準的な診断手法を記した資料をベースに作成しつつ、バリデーションを行ってもらう医師の意見も必ず伺うと良いでしょう。

というのも、判定票があまりに細か過ぎたり、電子カルテで確認不可能なことまで書いてしまっていたりすると、判定医から「こんな基準で電子カルテレビューするのは無理だよ」とNGを出される可能性があるからです。

ゴールドスタンダードの判定を行う者について

カルテ内容を精査して、真のケースを判定する場合には、原則として、1症例に対して2名以上の専門医が独立して判定を行うことが望ましい。2名以上の専門医による独立した判定が困難な場合であっても、カルテ内容の精査や真のケースの判定については、専門医が関与しながら、客観的かつ統一的に対応できるようあらかじめ十分に検討すべきである。例えば、専門医ではない医師が初期の判定を実施した上で、最終判定を専門医が実施する方法や、判定に必要な情報の収集等は医師以外の医療従事者が対応し、判定は専門医が実施する方法等が考えられる。

こちらも、本ガイドラインへの完璧な準拠を難しくしているポイントの一つですね。

「2名以上の専門医が独立して判定を行うことが望ましい」と書かれています。

ただでさえ激務な臨床医ですが、さらにその中でも貴重なリソースである専門医による判定が望ましいとされます。

病院によっては「研修医や若手医師ならともかく、専門医を2名出せなんで無理言わないでよ」というところもあるでしょう。ですので、バリデーション研究の実現可能性を病院に打診する際には、必ずこの点が可能かどうかを事前確認するべきです。

お手当的に、一部を非専門医が実施し、オーバーサイト的に専門医が最終確認をする方法も許容する旨が書かれていますが、その場合も結局は専門医は全患者分のカルテをレビューせねばならず、負担は相当なものだと思います。

もちろん、診断難易度が高い疾患に関しては専門医による判定が必要だと思うのですが、そうでない疾患に関しては非専門医を判定医とすることを許容しても良かったのではないか、臨床の現実から乖離した推奨なのではないか？と個人的には感じます。

バリデーションの対象とすべき指標について

アウトカム定義の妥当性を評価するためには、PPV、感度、特異度、陰性的中度(以下「NPV」という。)を算出して検討することが望ましい。しかしながら、カルテレビューで真のケースを判定する場合、これらの指標の全てを求めることは実施可能性の観点から困難な場合も想定される。製販後DB調査として、対照群に対する曝露群の相対リスクを算出して、曝露とアウトカムとの関連性の強さを評価する場合が挙げられるが、対照群に対する相対リスクを適切に算出する観点から、アウトカム定義の妥当性の評価においてPPVは重要な指標であると考えられる。
また、製販後DB調査の結果を適切に解釈し、安全対策措置の範囲や程度等を検討するためには、アウトカム定義により特定された集団が、対象となるアウトカム全体のうち、どの程度を網羅できているのかを把握しておくことが必要である。この観点から、原則として、感度についても副次的に検討すべきである。絶対リスクを評価する際や、複数のアウトカム定義から製販後DB調査で用いるアウトカム定義を選択する上でも感度は有用な指標と考えられる(アウトカム定義の決定については5―9．項参照)。　
なお、実施可能性の観点等から、特異度とNPVの算出は必須ではないが、アウトカム定義で特定された集団の特徴を適切に理解する上で、偽陽性及び偽陰性となった症例について、臨床的な観点から考察しておくことは有用である。

要するに、

PPVは必須、

感度はできれば、

特異度とNPVはやらんでよろしい

ということですね。

先に述べた通り、感度・特異度を算出する際には、「母集団におけるすべての陽性・陰性患者」を特定する必要があるため、母集団全体を対象にした判定を行う必要があり、対象患者数が多くなります。

対象患者数はバリデーション研究の実現可能性に極めて大きなインパクトを与えますので、ここでのポイントは「感度を算出せねばならないかどうか」ということになるでしょう。

PMDAもさすがにその点はお手当をしてくれており、以下のように記載が続きます。

感度については、医療情報データベースに含まれる全症例を評価して算出することが理想的ではある。しかしながら、全症例を対象とした評価や、アウトカムが希な場合における全症例からランダムサンプリングした集団を対象とした評価は、実施可能性の観点から困難な場合が多い。そのような場合には、全ての真のケースが含まれると想定される集団(以下「all possible cases」という。)を特定していると考えられる広義の定義を作成し、その定義に該当する症例についてのみカルテレビューを実施し、定義に該当しない症例は、カルテレビューを経ずに真のケースではないと判定するといった方法も考えられる。

All possible cases（以下、APC）という聞きなれない言葉が出てきました。

私も初めにこのガイドラインを目にしたときには、「ナニコレ？」状態でした。

こちらの解説は次のチャプターで行いますので、ひとまずはガイドライン全体の注目ポイントの紹介を続けさせて頂きます。

判定の対象となる症例数について

上述したように、アウトカム定義のバリデーションにおいては、原則として、PPVと感度について検討が必要であるが、アウトカム定義に基づき抽出された症例数が多い場合、全症例についてカルテレビューを実施することが困難な場合も多い。そのような場合には、カルテレビューの対象症例をランダムサンプリングすることも可能であるが、一定の精度を確保しながら評価するためには、バリデーションで検討するアウトカム定義のうち、製販後DB調査で用いることが期待されるいくつかのアウトカム定義について、計画時においてPPVの95％信頼区間の幅が±10％以下となるように症例数を設定することが必要である。感度についても、一定の精度を担保することが重要であるため、all possible casesに基づく感度を用いる場合には、原則としてall possible casesの中に含まれる真のケースが100例以上となるように計画することが必要である。また、感度の検討に当たり著しく点推定値の精度が低いと想定される場合には、その精度を考慮した保守的な症例数設計が推奨される。なお、カルテレビュー対象症例数に極端な差が生じないよう、各バリデーション実施施設において、カルテレビュー対象症例数が一定数以上になるよう計画すべきである。

要約すると、

PPVは95%CIが+-10%以下になるように、

疑似感度（APCで算出される感度）は真のケースが100例以上、

実施施設間で症例数に極端な差が出ないように、

ですね。

基準としては、擬似感度をターゲットに真のケース100例以上を対象とできるように対象者数を決定していくことになるでしょう。

ここで難しいのが、”対象者が100例以上”ではなく、”対象者における真のケースが100例以上”という点です。

後ほどAPCについては詳しく説明しますが、APCの対象集団は”陽性の可能性を持つ患者を漏れなく集めた集団”ですので、この集団における陽性割合を推定し、そこから逆算して、真のケースが100例以上になるように対象者数を決定してやる必要があります。

例えば、心筋梗塞をアウトカムとし、APC集団の50％が心筋梗塞患者と推定するならば、100例以上の真のケースを含むには、100 ÷ 50% = 200例以上を対象にするという計算になります。

ここで難しいのが、「APC集団における真のケースの割合」を推定せねばならないという点です。

例えば、その病院の入院患者における心筋梗塞の割合であれば、病院の過去の集計データを使い、推定できるかもしれません。

しかしながら、今回の割合推定の分母となるのは「APC集団」という非常に特異的な集団であり、そのような集団の真のケース割合を推定した先行研究はほぼ存在しないでしょう。

じゃあどうすればいいの？

ということになりますよね。

採りうる方法としては、

APC集団からランダムサンプリングされた10人程度のカルテレビューを行い、そのうちの真のケース割合を算出し、その数値をAPC集団全体の真のケース割合として使用するといった方法が考えられるでしょうか。

適切なアウトカム定義の決定について

製販後DB調査で用いるアウトカム定義は、検討した全てのアウトカム定義について、PPV、感度等を精査し、PPVと感度のバランスを考慮して選択する必要がある。PPVが最も高値であるアウトカム定義だけでなく、PPVが比較的高値で、感度も高値を示すアウトカム定義についても複数特定し、これら複数のアウトカム定義を製販後DB調査で用いることが適切である。なお、製販後DB調査において、用いるアウトカム定義としていずれが適切であるかについては、バリデーション結果を踏まえて、事前にPMDAと合意しておく必要がある。

さて、先に述べました通り、PMDAは同一アウトカムに対しても複数の定義を設定し、その妥当性を比較することを推奨しています。

妥当性指標はトレードオフの関係にありますが、ガイドラインでは「PPVと感度の双方がそれなりに高いやつを選んでね」ということが書かれています。

どの指標をどのような状況で優先すべきかについては以下に書いてありますので、併せてお読みください。

データベース研究における妥当性指標間の優先順位の付け方

比較研究のアウトカムにおいては、PPVの低下は基本的には差なし仮説を棄却する方向へのバイアス（Bias toward the null）をもたらします。

一方、母集団における有病割合が小さいときには、感度の低下によるバイアスはある程度は抑えられます（上のブログの感度のチャプターの”全コホートに占める曝露群の割合が多いときに、曝露を特定する状況”のアウトカム特定バージョンだと思ってください）。

製販後DB調査は薬剤の安全性を調査することが目的ですから、Bias toward the nullとは「本当は比較役と比較して有害事象リスクが高いのに、高くはないという方向へのバイアス」をもたらしてしまい、これは医薬品規制状は非常に大きな問題です。

そのため、妥当性指標の選択においてはまずPPVを高めることを優先し、ついで感度という順番で考えるのが良いのではないでしょうか？

なお、特定のアウトカム定義一つを選ぶことが難しい場合には（拮抗するものが複数あるなど）、DB調査においては複数のアウトカム定義を設定し、感度分析としてそれぞれのシナリオ下で解析を行った方が良いでしょう。

あと、しれーっと書かれておりますが、「どのアウトカム定義を用いるか、事前にPMDAと合意しておくように」と要求されています。

ですので、バリデーション研究を行い、イケてるアウトカム定義を見つけたからと言って、PMDAに相談なしで本調査を完了して結果を提示してしまうと、「いや、事前にアウトカム定義の相談きなさいって言ったでしょ」とストップがかかる可能性が大ですので、忘れずに相談に行った方が良いでしょう。

All Possible Casesについて

さて、後半に譲るとしていたAll possibile cases（APC）について解説をしていきたいと思います。

APCとは、バリデーション研究において感度を算出することの実現可能性の低さをカバーするために提案される方法で、これにより研究の実現可能性を維持したまま疑似感度を算出することを目的としています。

APCの基本的な発想は、

「なにも母集団全体をレビューしなくても、母集団のうち陽性患者を漏れなく含む集団に対してだけレビューすればコスパいいんじゃね？」というものです。

要するに、このオレンジの患者集団だけをレビューすることで良しとしようという発想です。

なんらかの方法（後ほど解説します）で母集団からオレンジ部分を抽出することになりますが、APC集団が真にすべての陽性患者を漏れなく含むかどうかは確認不可能です。

なぜなら、それを確認するためには母集団全体に対してレビューを行い、漏れている陽性患者がいないかどうか確認せねばならないからですね。

そのためAPC集団とは、「すべての陽性患者を含む」という強い仮定のもとで作成される集団であり、よってこの集団から計算される感度は、真の感度ではなく、あくまでも疑似感度（Peudo sensitivity）なのです。

仮にAPC集団の定義がイケておらず、集団外にも真の陽性患者が多数存在する場合には、感度が過大評価され、作成したアウトカム定義が実際よりも良いものと誤解されるリスクがあります²。

2 「日本における傷病名を中心とするレセプト情報から得られる指標のバリデーションに関するタスクフォース」報告書

さて、ここからはAPCの具体的な手順について解説していきましょう。

アウトカム定義の作成

APC集団の作成のためには、まず真のケースを多く含むことが期待される複数のアウトカム定義を作成します。

ICD-10: I21を一度でも有する
心筋梗塞に特異的な処置コードXを有する
心筋梗塞に特異的な薬剤コードYを有する

のようにですね。

APC集団の抽出

その後、母集団より上記のアウトカム定義のうち少なくとも一つを有する患者をすべて抽出します。

こんな感じですね。

考え方としては、「心筋梗塞患者であれば、少なくとも病名コードがあるか、処置コードXがあるか、薬剤コードYがあるはずだから、これら3つの定義で患者を抽出してやれば、心筋梗塞患者のとり漏らしはないだろう」ということですね。

ゴールドスタンダードの判定

あとは、通常のバリデーション研究と同様に抽出された患者に対して電子カルテレビューを行い、ゴールドスタンダード側の判定を行なっていきます。

もしAPC集団が大きく、全患者のカルテレビューに実現可能性がない場合は、母集団の抽出期間を短くする、もしくはAPC集団からさらにランダムサンプリングするなどで部分集団を作り出し、その集団に対してのみレビューを行う方法があります。

擬似感度・PPVの計算

これで、APC集団に含まれるすべての患者（もしくは部分集団の全ての患者）に対して、

ゴールドスタンダードの判定
アウトカム定義による判定

の2種類の判定がつけられたことになります。

ですので、あとは以下の2×2表のうち感度・PPVに該当する部分を計算してやれば、擬似感度・PPVが算出できることになります。

ちなみに、「なんで感度は疑似なのに、PPVはそのまま計算できるの？」と思う方もいらっしゃるかもしれません。

なぜなら、APC集団の条件として「設定したアウトカム定義のうちいずれかを満たす」という条件で引っ張ってきているので、APC集団にはアウトカム定義陽性となる全ての患者を含むことができているからです。

余談なのですが、感度・特異度と異なりPPV・NPVは計算を行う集団の真のアウトカム陽性患者の割合に影響を受けます。

真のアウトカム陽性患者の割合が上昇しますと、PPVも高くなります。

APCでは、全体集団から「陽性である可能性が低い患者を除外」することで集団形成をしているため、全体集団と比較してAPC集団の真のアウトカム陽性患者割合は上昇するはずです。

となると、APC集団で計算したPPVは、全体集団で計算したPPVよりも高くなるはずだと私は考えているのですが、その点はPMDAのガイドラインでは言及されていませんでした。

APCを用いたバリデーション研究の具体例

先日、私の知る限りでは日本で初めてAPCを用いたバリデーション研究がPublishされました。

これからAPCを実施する方にとっては大変参考になる論文ですので、ぜひご一読されることをお勧めします。

Nishikawa et al. Validation Study of Algorithms to Identify Malignant Tumors and Serious Infections in a Japanese Administrative Healthcare Database. Annals of Clinical Epidemiology. 2022, Volume 4, Issue 1, Pages 20-31.

対象としたアウトカム：悪性腫瘍/重症感染症

使用DB：MDV DB

実施施設：一般病院及びがん専門病院の2施設

母集団：2015年1月〜2017年12月に上記施設を受診した患者

APC抽出に使用したアウトカム定義は以下です。

漏れなく陽性患者を拾うために、同じ疾患に対しても8通りまたは6通りの幅広い定義を使用していることがお分かり頂けるかと思います。

アウトカム定義を決める際には、単に「処置コードXがある、薬剤コードYがある」とコードを指定するだけではなく、起点となるIndex dateから何ヶ月以内のコードであれば定義に合致するとみなすのかというTime periodを決めねばなりません。

上記のTableでも、きちんと決められていますね。

この定義により抽出した患者から、それぞれ悪性腫瘍のAPCから180名、重症感染症のAPCから200名をランダムサンプリングしてカルテレビューを行い、結果として108名、168名の真のケースが含まれていたようです。

こちらがバリデーションの結果です。

悪性腫瘍について見ていきましょう。

アウトカム定義を緩やかにするほど真の陽性患者のとり漏れが少なくなるために、感度は上昇します。

よって、2つの条件を組み合わせたアルゴリズム1〜8に比較して、条件をORで追加していくほど感度は上昇し、アリゴリズム11で飽和して100％となっていることがわかります。

一方、アウトカム定義を緩やかにするほど、アルゴリズムにて陽性と判定される患者が増えますので、非陽性患者を誤って陽性と判定するリスクも増加し、PPVは低下していきます。実際に、アルゴリズム9→10→11とPPVが低下していることがわかります。

筆者等は、感度とPPVのバランスが最も取れているアルゴリズムが製販後DB調査で用いるのに適切だろうとしています。

なお、本論文のDiscussionはPPVと感度のバランスや、PPVが低くなる理由など、バリデーション研究で抑えるべきポイントを非常に丁寧に解説していますので、ぜひご一読されることを強くお勧め致します。

また、本論文は全体集団のみならず、年齢別、性別別といったサブグループでも同様にアルゴリズムの妥当性指標の検証を行なっており、まさにお手本のような研究となっています。

記事が長くなってしまったので、重症感染症に関する記載は省きますが、悪性腫瘍と比べると比較的どのアルゴリズムでも高いPPV、擬似感度が報告されています。

終わりに

バリデーション研究の解説から始まり、国内具体例の紹介、PMDAによるガイドラインの紹介、そして疑似感度の解説をしてきました。

いかがでしたでしょうか？

アカデミアと違い、企業が製販後調査の枠組みでデータベース研究を行う際には、ガイドラインの通りバリデーション研究の必要性を吟味し、PMDAに相談をすることが求められております。

ですので、製販後DB調査の計画を立てるときには、本調査のみでなくバリデーション研究にも並行して目を向け、必要性はあるか、実現可能性はあるかということを忘れずに検討すべきです。

これを忘れて、DB調査を行うことを提案した後に「バリデーション研究については考えてなかったけれど、実施は無理っぽいです」となってしまうと、そもそものDB調査自体の実施も不可能になるという可能性があり、被るダメージがあまりにも大きすぎます。

まだまだ企業での先行例が少なく、どの企業も手探りで進めているバリデーション研究ですが、検討中のものも含めて企業間で状況を共有し、企業全体で主要なデータベースのバリデートを進めていければ良いなぁと思っています。

今回はPMDAのガイドラインのみを紹介しましたが、以下の報告書もバリデーション研究を理解する上では大変有意義ですので、ご覧くださいませ。

https://www.jspe.jp/committee/pdf/validationtrr120180523.pdf

・医療大規模DB研究の実施時は、併せてバリデーション研究の必要性、実現可能性も吟味する必要がある
・PMDAのガイドラインをしっかり読み、押さえるべきポイントを確認しておこう
・PMDAが提案する疑似感度という手法について

すきとほる疫学徒からのお願い

本ブログは、読者の方が自由に記事の金額を決められるPay What You Want方式を採用しています。

「勉強になった！」、「次も読みたい！」と本ブログに価値を感じてくださった場合は、以下のボタンをクリックし、ご自身が感じた価値に見合うだけの寄付を頂戴できますと幸いです。

もちろん価値を感じなかった方、また学生さんなど金銭的に厳しい状況にある方からのご寄付は不要です。

引き続き情報発信していく活力になりますので、ぜひお気持ちに反しない範囲でご寄付をお願い致します！

ご寄付はこちらから

薬剤疫学、製薬キャリアに関する最新情報はこちらから

フォローする