アンケート自由回答をDifyで自動分類:LLMクラスター分析で「薬を使わない理由」を解明
アンケート自由回答をDifyで自動分類:LLMクラスター分析で「薬を使わない理由」を解明
アンケート調査における自由回答(フリーアンサー)は、顧客や患者の「生の声」が詰まった宝の山です。特に医療・医薬分野において、「なぜこの薬を使わないのか」というネガティブな意見は、製品改善やマーケティング戦略の鍵となります。しかし、数千件にも及ぶ自由回答を一つひとつ手作業で分類し、定量化する作業(アフターコーディング)は、膨大な時間と労力、そして担当者による主観性の混入という課題を抱えていました。
本記事では、AIアプリケーション開発プラットフォーム「Dify」を活用し、大規模言語モデル(LLM)のセマンティック(意味的)な理解能力を用いて、自由回答を自動でクラスター分析・分類する革新的な手法を解説します。この手法により、分析時間を最大90%削減し、客観的で深いインサイトを迅速に得る道筋を示します。
1. アンケート自由回答分析の従来の課題
アンケートの自由回答は、定量的な選択肢では捉えられない、回答者の本音や潜在的なニーズを明らかにする貴重なデータです。しかし、この定性データをビジネス上の意思決定に活用するためには、定量的な指標に変換するプロセスが不可欠です。従来、この変換作業は「アフターコーディング」と呼ばれる手法で行われてきました。アフターコーディングでは、担当者が数千件のコメントを読み込み、類似する内容ごとにコード(分類ラベル)を割り当てて集計します。この作業は、大量のデータを扱うほどに非効率となり、特に専門的な知識を要する医薬分野の自由回答では、分類の難易度がさらに高まります。例えば、1,000件の自由回答を分類するのに、熟練した担当者でも約40時間以上を要することが一般的です。また、担当者によって分類基準にばらつきが生じ、分析結果の一貫性を保つことが難しいという属人性の問題も大きな課題でした。この手間と属人性の問題こそが、自由回答の活用を妨げる最大の壁となっていました。多くの企業が、せっかく集めた貴重な「生の声」を十分に活用しきれていない背景には、この分析工数とスキルの問題があります。
2. DifyによるLLM分類:手動アフターコーディングからの脱却
Dify(ディファイ)は、LLM(大規模言語モデル)を活用したAIアプリケーションをノーコードまたはローコードで構築できるプラットフォームです。Difyのワークフロー機能とLLMノードを組み合わせることで、従来の課題であった手動のアフターコーディングを、AIによる自動分類(セマンティック・クラスタリング)に置き換えることができます。これにより、分析工数を劇的に削減し、客観性と再現性の高い結果を迅速に得ることが可能になります。
具体的には、CSVファイルなどで提供された自由回答データを取り込み、Difyのワークフロー内で「LLMノード」に分類タスクを実行させます。分類結果は、後続のデータ処理や可視化のために、JSON形式などの構造化データとして出力されるため、次のステップへの連携もスムーズです。
Difyを活用した自動分類の最大のメリットは、単なるキーワードの一致ではなく、LLMの持つ意味(セマンティクス)の理解に基づき、類似した意見を自動でグルーピングできる点です。これにより、手動では見落とされがちな潜在的な共通テーマ(クラスター)を抽出できます。
3. 従来の分類手法:アフターコーディングとテキストマイニングの限界
自由回答の分析手法として、アフターコーディングの他に「テキストマイニング」があります。テキストマイニングは、文章を単語や文節に分解し(形態素解析)、その出現頻度や単語間の関連性を統計的に分析する手法です。このテキストマイニングには、「クラスタ分析」という手法が含まれます。クラスタ分析は、テキストを数値データ(ベクトル)に変換し、その距離(非類似性)に基づいて、性質の似ているテキストを自動的にグループ化する技術です。
しかし、従来のテキストマイニングによるクラスタ分析は、単語の表面的な出現頻度や共起関係に依存する部分が大きく、特に日本語特有の曖昧な表現や文脈、否定表現(例:「副作用の懸念はない」と「副作用が怖い」)の意味的な違いを正確に捉えにくいという限界がありました。例えば、「この薬は値段が高い」と「経済的な負担が大きい」というコメントは、従来のクラスタリングでは異なるグループに分類されるリスクがありました。LLMは、これらの表現を「経済的理由」という一つのセマンティックなクラスターとして統合的に理解できる点で、従来のテキストマイニングの精度を上回ります。
- 文脈・意味を理解した分類(セマンティック)
- 分類基準の柔軟なカスタマイズが可能
- 大量データでも一貫した結果を迅速に出力
- 手動分類は工数が膨大で属人化しやすい
- テキストマイニングは単語の表面的な一致に依存
- 否定や皮肉などの複雑な表現の解釈が困難
4. Dify LLMノードによるセマンティック・クラスタリングの仕組み
例えば、アンケートの自由回答が10,000件あった場合、Difyは以下のプロセスで処理を自動化します。
- 1. データ取り込み: CSVなどの形式で自由回答データをワークフローの「開始ノード」に取り込みます。
- 2. 反復処理: 「反復処理(イテレーション)ノード」で、各回答を1件ずつLLMノードに渡します。
- 3. 分類実行: LLMノード内で、プロンプトに従って「この薬を使わない理由」を分類します。
- 4. 構造化出力: 結果をJSON形式で出力させ、「分類コード」「分類理由」「センチメント(ポジティブ/ネガティブ)」などの構造化データとして次ノードへ送ります。
この一連の自動化により、従来のテキストマイニングで必要だったベクトル化や距離計算といった煩雑な前処理を意識することなく、わずか数分で分類を完了させることが可能になります。この速度は、特に急を要する市場調査において極めて重要です。
5. 実践ステップ:「この薬を使わない理由」を自動分類するワークフロー
医薬品のアンケートでは、「この薬を使わない理由」として「価格が高い」「副作用が怖い」「既存薬で十分」「情報が少ない」といったカテゴリに分類することが求められます。Difyでこのタスクを実行する具体的なステップは以下の通りです。
分析目的に合わせて、分類したいコアなカテゴリ(例:価格、安全性、有効性、利便性)を明確に定義し、LLMノードの「システムプロンプト」にその定義を明確に記述します。例えば、「回答を以下の5つのカテゴリのいずれかに分類し、必ずJSON形式で出力せよ」と指示します。
Difyで「ワークフロー」を作成し、「開始ノード」でアンケートCSVファイルをアップロードします。次に「テキスト抽出ツールノード」で自由回答の列を抽出し、「反復処理ノード」で各行をLLMノードへ送るパイプラインを構築します。
LLMノードの「構造化出力」設定を利用し、出力形式をJSONスキーマで厳密に指定します。例えば、{"category": "string", "sentiment": "string"}のように指定することで、LLMは必ず定義された形式で分類結果を返します。この構造化データは、その後の集計やグラフ化にそのまま利用できるため、手動でのデータ整形(約8時間相当)が不要になります。
薬の不使用理由を分析する際、単なる分類だけでなく、「医師の推奨がない」「薬局での在庫がない」といった流通・プロモーション上の要因を分類軸に加えることで、製薬企業の戦略立案に直結するインサイトを得られます。
6. 分析精度を最大化するプロンプト設計と構造化出力の活用
Difyを用いたLLM分類の成否は、プロンプト設計の質に約70%依存すると言われています。分類精度を最大化するために、以下の2点に特に注力する必要があります。
1. 分類基準の具体的かつ網羅的な定義:
- 分類カテゴリの名称だけでなく、「そのカテゴリに該当する回答の例」と「該当しない回答の例」をプロンプトに明記します。
- 「副作用」カテゴリの場合、「眠気や吐き気が心配」は該当するが、「効果が不十分」は「有効性」カテゴリに分類する、といった明確なルールを提示します。
- 分類不能な回答や複数のカテゴリにまたがる回答の処理方法(例:最も強い理由を優先、または「その他」に分類)も指示します。
2. 構造化出力(JSONスキーマ)の活用:
DifyのLLMノードが持つ「構造化出力」機能は、分類結果の品質と後の処理効率を決定づけます。JSONスキーマを用いて出力形式を厳密に定義することで、LLMは自由な文章ではなく、機械的に集計可能なデータ(例:{"id": 123, "reason_category": "価格", "sentiment": "Negative"})を返します。これにより、分類結果をPythonやBIツール(Tableau、Power BIなど)に連携し、セグメント別(例:30代女性)の不使用理由の割合を算出するといった定量分析をわずか数秒で開始できるようになります。この構造化出力の強制により、分析プロセスにおけるエラー率を約95%削減することが可能です。
プロンプトを曖昧にすると、LLMは意図しない分類を行う可能性があります。「アンケート結果を分析してください」といった抽象的な指示ではなく、「自由回答を読み、事前に定義した5つの理由(価格、副作用、…)のいずれかに分類し、出力は必ず指定されたJSON形式に従うこと」と具体的に指示することが不可欠です。
まとめ
アンケートの自由回答分析は、顧客のインサイトを得る上で不可欠ですが、従来の手動アフターコーディングは時間と労力、そして属人性が大きな課題でした。Difyを用いたLLMによる自動分類(セマンティック・クラスタリング)は、この課題を根本から解決します。DifyのワークフローとLLMノードを活用し、明確なプロンプトとJSONスキーマによる構造化出力を組み合わせることで、数千件の「薬を使わない理由」といった定性データを、客観的かつ定量的なデータとして瞬時に分類・集計できます。この自動化により、分析担当者は膨大な分類作業から解放され、浮いた時間を「なぜその結果になったのか」という深い考察と戦略立案に集中させることができます。Difyは、製薬業界をはじめとするあらゆる分野の市場調査において、データ活用のスピードと精度を飛躍的に向上させる強力なツールとなるでしょう。
株式会社ヘルツレーベン代表 木下 渉
株式会社ヘルツレーベン 代表取締役/医療・製薬・医療機器領域に特化したDXコンサルタント/
横浜市立大学大学院 ヘルスデータサイエンス研究科 修了。
製薬・医療機器企業向けのデータ利活用支援、提案代行、営業戦略支援を中心に、医療従事者向けのデジタルスキル教育にも取り組む。AI・データ活用の専門家として、企業研修、プロジェクトPMO、生成AI導入支援など幅広く活動中。

