製薬RWD活用のブレイクスルー:LLMによる退院サマリからの有害事象データ構造化戦略
製薬RWD活用のブレイクスルー:LLMによる退院サマリからの有害事象データ構造化戦略
医薬品開発におけるリアルワールドデータ(RWD)の重要性が高まる中、その利活用を阻む最大の壁が、電子カルテや退院サマリといった「非構造化データ」の処理です。特に、医薬品の有効性と安全性を評価するために不可欠な有害事象(Adverse Event: AE)の情報は、医師の自由記述欄に埋もれており、手作業による抽出・標準化には膨大な時間とコストがかかります。本記事では、この課題を解決する大規模言語モデル(LLM)を用いた非構造化データ構造化の最先端戦略を解説します。LLM開発プラットフォームを活用することで、どのようにして非構造化データの「80%の壁」を打ち破り、製薬研究開発(R&D)の効率とスピードを飛躍的に向上させるのか、具体的なメカニズムと標準化のポイントをプロフェッショナルな視点から深く掘り下げます。
1. 結論:RWD活用のカギは「有害事象の自動構造化」に集約される
製薬R&DにおけるRWD活用の成功は、電子カルテのフリーテキストや退院サマリなどの非構造化データに潜む、重要な臨床アウトカム情報、特に有害事象(AE)データをいかに効率的かつ高精度に「構造化・標準化」できるかにかかっています。従来の自然言語処理(NLP)技術では困難であった医療特有の専門用語、略語、文脈の解釈が、大規模言語モデル(LLM)の登場により可能となりました。LLMを活用することで、退院サマリに記載された複合的な情報から、AE名、発現日、重症度、転帰といった特定の項目を瞬時に抽出・データ化することが可能になります。これにより、手作業によるデータ入力やコーディング作業に要していた時間を大幅に短縮し、臨床開発のリードタイムを最大で約30%削減するポテンシャルを秘めています。
RWDの価値の約70%は非構造化データに含まれると推定されています。LLMによる構造化は、この隠れた価値を解き放ち、特に医薬品の安全対策(ファーマコビジランス)におけるシグナル検出の迅速化に直結します。
2. 製薬RWDにおける非構造化データの「80%の壁」と構造化の課題
電子カルテ(EHR)に含まれるデータの大部分は、医師の所見、手術記録、看護記録など、自由記述形式の非構造化データで構成されており、その割合は全体の約80%に達すると言われています。これらの情報には、定型的な構造化データ(検査値、処方データなど)だけでは捉えきれない、患者の微細な症状変化や予期せぬ有害事象の詳細な経過が含まれています。しかし、この非構造化データを手作業でレビューし、必要な情報を抽出・コーディングするには、高度な医学知識と膨大な人的リソースが必要です。特に、新しい薬剤の市販後調査(PMS)や、治験の対照群としてRWDを利用する場合、この「80%の壁」がデータの即時利用を妨げ、安全性情報の収集遅延やコスト増加の大きな要因となっています。この課題を解決するために、フリーテキストデータから薬物の治療抵抗性などの臨床アウトカムを抽出するための、自然言語処理を活用した方法論の検討が日本国内でも進められています。
- 非構造化データが抱える主要な課題:
- 医療専門用語、略語、文脈依存性の高い記述の多さ
- アウトカム情報(治療効果・有害事象)の定型化されていない記録形式
- 手動抽出による高コストと時間遅延(年間数千万円、数ヶ月単位)
- 構造化データの標準化(CDISC/MedDRA)へのマッピングの複雑性
3. LLMによる有害事象抽出の仕組み:プロンプトエンジニアリングとDifyの役割
DifyのようなLLM開発プラットフォームは、非構造化データからの情報抽出プロセスを大幅に簡素化します。この仕組みの核となるのは、高度に設計された「プロンプトエンジニアリング」と、RWD特有の知識を参照する「RAG(Retrieval-Augmented Generation)」技術です。具体的には、退院サマリのテキストを入力とし、出力形式をCDISCやMedDRAの構造に準拠するようLLMに指示します。これにより、LLMはテキスト内の有害事象の記述(例:「〇〇薬投与後、発熱と皮疹を呈した」)を正確に特定し、以下の構造化されたデータ項目に変換します。
このプロセスにより、数時間かかっていた症例報告書のレビュー作業が数分に短縮され、効率化が実現します。
LLMによる有害事象抽出は、従来の手法と比較してF1スコアで約15〜20%の精度向上が報告されており、特に日本語の医療文書の複雑な文脈理解において優位性があります。厚生労働科学研究費補助金事業でも、LLMを活用した医薬品等の有効性・安全性評価のためのアウトカム抽出の方法論の確立に向けた研究が進められています。
4. 構造化データの品質保証:Human-in-the-loopとCDISC/MedDRAへのマッピング
LLMによる自動抽出は強力ですが、RWDを規制当局への申請データとして利用するためには、その品質と信頼性を確保することが不可欠です。LLMの出力結果をそのまま使用するのではなく、「Human-in-the-loop(HITL)」、すなわち、専門家(医師、データサイエンティストなど)による最終的な確認と修正のプロセスを組み込むことが重要です。特に、有害事象のコード化においては、治験データで用いられる国際的な標準であるMedDRA(Medical Dictionary for Regulatory Activities)や、臨床研究データの標準規格であるCDISC(Clinical Data Interchange Standards Consortium)への正確なマッピングが求められます。
| 項目 | 非構造化データ(退院サマリ) | LLM抽出後の構造化データ |
|---|---|---|
| 有害事象名 | 「昨夜から38.5℃の発熱と全身の紅斑」 | 発熱、紅斑 |
| 標準コード | (なし) | MedDRAコード(例: 10016503, 10014034) |
| CDISCドメイン | (なし) | AE (Adverse Event) |
RWDの利活用においては、医療情報の匿名化・仮名化が必須であり、個人情報保護法や医療情報セキュリティガイドラインの厳格な遵守が求められます。LLMへの入力データは、必ず適切なセキュリティ対策と匿名化処理を施した上で利用しなければなりません。
5. RWD活用加速がもたらす新薬開発・市販後安全対策へのインパクト
LLMによる非構造化データの構造化は、製薬業界に多大なメリットをもたらします。最も大きなインパクトは、臨床開発の意思決定の迅速化と安全対策の強化です。RWDが迅速に構造化され、CDISC/MedDRA標準に準拠することで、レセプトデータなどの構造化データと容易に連結解析が可能になります。これにより、治験の対照群構築、特定集団に対する追跡研究、新たな副作用シグナルの早期検出が実現します。
- LLM構造化による主なインパクト:
- 臨床試験の効率化: RWDを用いたヒストリカルコントロール群の構築が容易になり、治験コストを削減。
- ファーマコビジランスの高度化: 医療現場の生の情報から、稀な有害事象や予期せぬ副作用を早期に検知。
- 個別化医療の推進: 患者の詳細な治療経過やアウトカム情報を分析し、最適な治療法の特定に貢献。
今後、標準型電子カルテの普及や公的データベースの整備が進む中で、LLMを活用したデータ構造化技術は、製薬R&Dをデジタル化の次のフェーズへと押し上げ、最終的には患者一人ひとりに最適な治療を届ける「個別化医療」の実現に不可欠な基盤となると期待されます。
まとめ
製薬RWD活用における最大の課題は、電子カルテや退院サマリに埋もれた非構造化データからの、特に有害事象(AE)データの抽出と標準化でした。この「80%の壁」を打破する鍵は、Difyのようなプラットフォームを活用した大規模言語モデル(LLM)による自動構造化にあります。LLMは、高度なプロンプトエンジニアリングとRAG技術により、医療特有の複雑なフリーテキストからAE情報を高精度に抽出し、CDISCやMedDRAといった標準規格にマッピングする能力を持っています。ただし、規制当局への申請データとして利用するためには、Human-in-the-loopによる品質保証と、厳格な医療情報セキュリティの遵守が不可欠です。このAIを活用した構造化戦略は、臨床開発の効率化と市販後安全対策の高度化を両立させ、新薬開発に不可欠なデータ基盤を構築します。
株式会社ヘルツレーベン代表 木下 渉
株式会社ヘルツレーベン 代表取締役/医療・製薬・医療機器領域に特化したDXコンサルタント/
横浜市立大学大学院 ヘルスデータサイエンス研究科 修了。
製薬・医療機器企業向けのデータ利活用支援、提案代行、営業戦略支援を中心に、医療従事者向けのデジタルスキル教育にも取り組む。AI・データ活用の専門家として、企業研修、プロジェクトPMO、生成AI導入支援など幅広く活動中。

