論文データとリアルワールドデータの「乖離」を見つける。Difyに2つのソースを読み込ませる比較
RCTとRWDの「乖離」をRAGで特定:AIによる医薬品開発最適化
新規医薬品の臨床開発において、ランダム化比較試験(RCT)で示された高い有効性(Efficacy)が、市販後の実臨床(リアルワールド)で必ずしも再現されないという「乖離」は、製薬企業や医療現場にとって長年の課題です。このギャップは、治療戦略の最適化や保険償還の判断に大きな影響を与えます。本記事では、このRCTデータとリアルワールドデータ(RWD)の乖離が生まれる根本的なメカニズムを解き明かし、DifyなどのRAG(Retrieval-Augmented Generation:検索拡張生成)技術を活用して、非構造化データ(論文)と構造化データ(データベース)を統合的に比較・分析し、この乖離を効率的に特定する具体的な方法論を、日本の規制環境を踏まえて専門的に解説します。
AIを活用したデータ統合分析は、従来の統計的手法だけでは困難だった複雑な因果関係やサブグループ間の差異を浮き彫りにし、より現実(リアルワールド)に即した医薬品の価値評価と安全対策の実現を可能にします。
1. RCTとRWDの乖離特定が医薬品開発の鍵となる理由
医薬品の承認を得るためのゴールドスタンダードはRCT(無作為化比較試験)ですが、その結果は「理想的な環境下での有効性(Efficacy)」を示すものであり、実臨床の多様な環境を完全に反映しているわけではありません。例えば、RCTでは平均して約70%の患者が厳格な選択基準を満たす必要があり、併存疾患の多い高齢者や重症患者は除外されがちです。これにより、実臨床で薬を服用する患者集団(RWD)と、治験に参加した患者集団(RCT)との間に構造的な差異が生じます。
この乖離を特定し、その大きさと要因を定量化することは、市販後に予期せぬ副作用や効果の減弱を防ぎ、薬剤の真の価値(Effectiveness)を最大化するために不可欠です。乖離の早期特定は、製造販売後調査(PMS)の最適化や、ターゲットを絞った適応拡大戦略の立案に直結し、結果として年間数十億円規模のコスト削減と開発期間の短縮に貢献する可能性があります。
2. RCTとRWDの根本的な違い:乖離を生むメカニズム
RCTとRWDの乖離は、主に「患者選択の厳格性」と「治療環境の管理度」の違いから生じます。RCTは、均質な集団に対して介入を行うことで、交絡因子(結果に影響を与える第三の因子)を排除し、介入薬の純粋な有効性を評価することに特化しています。一方、RWDは電子カルテ(EHR)やレセプトデータ、レジストリ、ウェアラブルデバイスなど、日常的な診療環境で収集されたデータを指します。
この違いから、RWDではRCTで除外された多様な背景を持つ患者(高齢者、多併存疾患患者など)や、実際の治療アドヒアランス(服薬遵守率)の変動が反映されます。この構造的な差異こそが、RCTの理想的な有効性(Efficacy)と、RWDの実臨床における有効性(Effectiveness)との間にギャップを生じさせる主要なメカニズムです。
| 項目 | RCT (理想的な環境) | RWD (実臨床の環境) |
|---|---|---|
| 検証目的 | 有効性(Efficacy) | 実効性(Effectiveness) |
| 患者集団 | 均質・厳格な選択基準(バイアス抑制) | 多様・広範な患者背景(併存疾患含む) |
| データソース | 症例報告書(CRF) | EHR、レセプト、レジストリ、PHR |
保健医療福祉情報システム工業会(JAHIS)の資料によれば、RWDは国際的な組織(FDA、ISPORなど)によって定義されており、RCTによって取得されたものでなく、日常的な患者状態や診療に関するデータ、非介入的な方法で観察的に得られるデータという特徴が共通しています。
3. Dify(RAG)を活用した「乖離」特定プロセス
DifyのようなRAG(Retrieval-Augmented Generation)プラットフォームは、この乖離を特定するための強力なツールとなります。RAGは、大規模言語モデル(LLM)が持つ一般知識に加え、外部の信頼できるナレッジベース(この場合、RCT論文とRWDデータベース)を参照して回答を生成する技術です。これにより、LLMの「ハルシネーション(幻覚)」を防ぎつつ、最新かつ根拠のある比較分析が可能になります。
RCTの非構造化データ(PDF形式の論文、承認申請資料)と、RWDの構造化データ(EHR、レセプトDB)をDifyのナレッジベースとしてそれぞれインデックス化します。この際、RWDは匿名化された上で、共通データモデル(CDM)に準拠した形式で構造化されていることが望ましいです。
LLMに対して、「RCT論文のサブグループAにおける有効性(例:奏効率55%)と、RWDデータベースのサブグループA(例:併存疾患を持つ患者)における有効性(例:奏効率38%)の差異とその要因を抽出せよ」といったクエリを実行します。RAGは両方のナレッジベースから該当するテキストや数値を検索し、比較結果と引用元(論文のページ番号やDBのテーブル名)を提示します。
乖離が確認された場合、RAGはさらに「RCTの除外基準」や「RWDにおける併用薬の頻度」など、乖離の背景にある交絡因子を自動で検索し、要因を分析します。これにより、従来の統計解析では見落とされがちだった、実臨床特有の要因(例:特定の併用薬による相互作用)を迅速に特定できます。
4. 乖離特定がもたらす医薬品開発と臨床現場へのベネフィット
RCTとRWDの乖離を特定し、その要因を理解することは、医薬品のライフサイクル全体にわたって多大なベネフィットをもたらします。製薬企業にとっては、承認後のリスク管理(ファーマコビジランス)を強化し、実臨床で高いリスクを持つサブグループを特定することで、市販後調査(PMS)のコストを約20%削減できる可能性があります。また、より正確な費用対効果分析(HTA)の実施により、保険償還交渉を有利に進められます。
規制当局である医薬品医療機器総合機構(PMDA)も、RWD活用推進に向けた取り組みを積極的に進めており、RWD WGを設置してライフサイクルを通じたRWD活用の基本的考え方や信頼性担保に関する検討を行っています。 2018年4月のGPSP省令改正以降、製造販売後の安全性監視活動にRWDの活用が認められており、RWDは特に以下の分野で重要な役割を担っています。
- 希少疾患に対する外部対照群(Historical Control Arm)としての利用
- 長期的な安全性・有効性の監視(ファーマコビジランス)
- 臨床ガイドラインにおける実効性(Effectiveness)の裏付け
- 適応拡大に向けたエビデンス創出
5. 日本におけるRWD利活用の現状と課題
しかし、政府による医療DXの推進や、PMDAによるレジストリ・データベースに関する相談枠の設置など、RWD活用を後押しする動きは加速しています。製薬企業がRWDを十分に二次利用し、開発に活かすためには、以下の課題を克服する必要があります。
- データの標準化と品質確保:異なる医療機関のデータを統合するための共通データモデル(CDM)の普及。
- データアクセスの透明性:RWD提供者(医療機関、DB事業者)と利用者(製薬企業)間の円滑な連携。
- 規制面での明確化:RWEを承認申請に利用する際の信頼性担保に関する具体的な留意点の遵守。
特に、希少疾患領域では、RWDを外部対照群として活用することで、治験実施の困難性を克服し、新薬へのアクセスを向上させるという社会的意義の大きなベネフィットが期待されています。
6. AI分析の限界とデータの品質管理
DifyなどのRAGツールを活用した乖離特定は非常に強力ですが、その結果の信頼性は、入力するデータの品質に依存します。RWDは日常診療の副産物であるため、データの欠損、誤入力、非構造化された自由記載テキストの多さなど、品質にばらつきがあることが最大の課題です。AIによる分析を成功させるためには、以下の注意点を厳守する必要があります。
特にRAG技術は、情報検索(Retrieval)の精度が分析結果を大きく左右するため、非構造化データ(論文)をインデックス化する際のチャンク分割(データの区切り方)やメタデータ付与の設計が、乖離特定における成功率を左右します。データ品質管理への投資は、AI導入コストの約30%を占めるとも言われ、その重要性は計り知れません。
- データの匿名化と倫理性:個人情報保護法に基づき、RWDは完全に匿名化され、二次利用の倫理的・法的側面をクリアしていること。
- コホートの適合性検証:RCTの対象患者とRWDの分析対象コホートが、比較に適した特性を持っているかを事前に統計的に検証すること(Propensity Score Matchingなど)。
- AIのハルシネーション対策:RAGが生成した結果について、必ず引用元(RCT論文のページやDBのレコード)を提示させ、専門家(疫学者、医師)がファクトチェックを行う体制を構築すること。
まとめ
RCTとRWDの乖離特定は、医薬品開発の効率化と実臨床での安全性・有効性(Effectiveness)の最大化に不可欠です。RAG技術(Difyなど)は、非構造化された論文データと構造化されたRWDを統合的に分析し、従来の統計的手法では見つけにくかった「サブグループ間の有効性の差異」や「実臨床特有の交絡因子」を効率的に抽出する革新的な手法を提供します。日本の規制当局(PMDA)もRWD活用を推進しており、今後は製薬企業がRAGなどのAIツールを導入し、データ品質管理と倫理的利用を徹底することで、より現実的な医薬品の価値を評価し、患者に最適な医療を提供する未来が実現します。この技術は、特に治験が困難な希少疾患領域において、新薬開発のブレイクスルーをもたらす可能性を秘めています。
株式会社ヘルツレーベン代表 木下 渉
株式会社ヘルツレーベン 代表取締役/医療・製薬・医療機器領域に特化したDXコンサルタント/
横浜市立大学大学院 ヘルスデータサイエンス研究科 修了。
製薬・医療機器企業向けのデータ利活用支援、提案代行、営業戦略支援を中心に、医療従事者向けのデジタルスキル教育にも取り組む。AI・データ活用の専門家として、企業研修、プロジェクトPMO、生成AI導入支援など幅広く活動中。

