part0. X APIを⽤いたソーシャルリスニング

目次

本シリーズでは、DifyとStreamlitを⽤いたソーシャルリスニングアプリについて解説します。

ネット上(主にX [旧Twitter] API)で動向が気になるワードを設定すると、定期的にX 旧Twitter)からデータを⾃動収集します。

さらに⽣成 AIを⽤いたデータの⾃動ラベリングまでDifyで⾏い、Streamlitをデータ可視化ツールに⽤いて、データの分析を⾏うといった流れです。

Difyワークフロー画⾯

Streamlitのホーム画⾯

Streamlit画⾯

可視化イメージ(全てStreamlitアプリで見れるグラフです)

可視化イメージ
  • Part0. X APIを⽤いたソーシャルリスニング概要(←本記事)
  • Part1. X (旧Twitter) APIの基礎
  • Part2. Difyを⽤いてX APIから直近のポストを取得する
  • Part3. LLMを⽤いて⾃動でデータラベルを付与する
  • Part4. スプレッドシートにデータを格納する
  • Part5. Streamlitを⽤いたデータの可視化例

本記事(Part0)では、「ソーシャルリスニングとは何か」「ソーシャルリスニングはどのように実現できるか」「製薬 • ライフサイエンス業界においてどのような役割を持つか」を詳しく解説します。

ソーシャルリスニングとは、X(旧Twitter)をはじめとするSNSやオンライン上の投稿を継続的に収集 • 分析し、⼈々の関⼼、感情、態度、⾔説の変化を可視化する⼿法です。

単なる「ポジティブ∕ネガティブの割合把握」にとどまらず、「誰が • いつ • どのような⽂脈で • 何について語っているのか」を構造的に 捉える点に特徴があります。

特に医療 • 製薬業界においては、RCTや疫学データ、調査票などのフォーマルなデータが意思決定の中⼼を担ってきました。⼀⽅で、これらのデータは取得までに時間がかかり、また設計段階で想定した問い以外の「想定外の声」を拾いにくいという側⾯があります。

ソーシャルリスニングは、このギャップを補完する⼿法として位置づけられます。

患者、家族、⼀般⽣活者、医療従事者といった多様なステークホルダーが、調査対象として意識せずに発した「⽣の⾔葉」を起点に、社会の空気感や違和感、誤解、関⼼の変化を捉えることが可能です。

近年は、APIによる安定的なデータ取得と、⾃然⾔語処理(NLP)や⼤規模⾔語モデル(LLM)の進展により、期間の投稿を対象とした時系列分析

  • トピックやスタンス(賛成∕反対∕不安など)の⾃動分類
  • 特定イベント前後での⾔説構造の変化把握

といった分析が現実的なコストと⼯数で実施できるようになっています。

このようにソーシャルリスニングは、「調査で測る世論」ではなく、「⾃然発⽣的に形成される世論のプロセス」を理解するためのアプローチとして、医療 • 製薬分野でも重要性が⾼まっています。

ソーシャルリスニングにおいて可視化すべきデータを収集する作業は必要不可⽋です。

特定の製品に対する社会の意⾒や、時事的なニュースに対するスタンスはインターネットの様々なツールに散らばっています。

これらの情報を機械的に収集して、データをきれいに整形し、データベースに保存することでデータ可視化の⼟台を作ることができます。

ソーシャルリスニングに用いるデータを収集する⽅法は⼤きく分けて以下2つに分かれます 

  • データ提供元の公式APIを利⽤する
    • データ構造や仕様がドキュメント化されている
    • ルールに則れば⼤量のデータ取得も可能
    • サブスク料⾦が必要な場合がある
  • スクレイピングを実施する
    • 公式APIが提供されていない場合でも取得可能
    • 利⽤規約によって禁⽌されている場合がある
    • 画⾯のレイアウト変更に弱く、不安定

※  スクレイピングを⾏う場合は、必ずサイト運営者および情報提供元が定める利⽤規約に従ってください。⽣成AIの普及によりスクレイピングは容易になりましたが、過度なアクセスや利⽤規約に反するアクセスは、法的責任を問われる可能性があります。実施にあたっては、必ず専⾨家またはプロのエンジニアから助⾔を受けたうえで判断してください。

医療 • 製薬業界におけるソーシャルリスニングの最⼤のメリットは、意思決定の”時間軸”と”視野”を拡張できる点にあります。

メリット内容具体例 • 効果
  早期検知 兆候把副作⽤懸念、ワクチンや治療に対する不安、報道や訴訟をきっかけとした感情の揺れなどを、正式な調査やデータとして可視化される前に捉えるSNS上で断⽚的に現れる変化を「問題化する前段階」で把握し、早期対応が可能になる
  誤情報 認知ギャプの把握医療者側で前提とされている知識やエビデンスが、⽣活者側では異なる形で解釈 • 流通しているケースを可視化「なぜ誤解が⽣まれたのか」「どの表現が不安を増幅させているのか」といった構造を理解し、リスクコミュニケーションや情報提供の改善に活⽤
  施策 政策 情報 発信の効果検証ガイドライン改訂、⾏政発表、企業のプレスリリース、啓発キャンペーンなど が、社会の⾔説にどのような影響を与えたのかを時系列で確認従来のアンケート調査では捉えにくかった 「反応の速度」や「持続性」を評価できる
  定量データと定性データの橋渡しRWDや臨床データが「何が起きているか」を⽰す⼀⽅で、ソーシャルデータは 「なぜそう受け⽌められているのか」を 補⾜両者を組み合わせることで、医療 • 製薬分野における意思決定がより⽴体的で現実に即したものになる

本シリーズで作成するアプリケーションも、このような観点から、X上の断⽚的な投稿を、LLMを⽤いて構造化し、議論や判断に使える情報へ変換することを⽬的としています。

本ブログでは以下の構成で簡易的なソーシャルリスニングを実現します。

  • まずX APIを⽤いたポスト(ツイート)の⾃動収集をDifyで実現します
  • その後、Dify上でLLMを⽤いたデータの⾃動ラベリングを⾏います
  • 最後に、Streamlitを⽤いてシートに保存したデータの可視化を⾏います
処理の流れ

最終的にStreamlitでは下図のようなデータが確認できるようになります。

アウトプットイメージ

本記事(Part0)では、ソーシャルリスニングアプリの概要や、製薬 • ライフサイエンス業界における価値について解説しました。

次のステップ

次はX (旧Twitter) APIの基礎を解説します。本ブログシリーズではDifyを⽤いてX APIからのポスト⾃動取得を実現しています。

X API⾃体の知名度は⾼いものの、その制約条件の厳しさやコストの⾼さから利⽤ハードルが⾼く、解説記事も少ないです。そのため、まずはX APIの解説でX APIの基本的な利⽤⽅法を学んでから、実践編としてDIfyを⽤いたアプリ作成について解説します。

  • Part0. X APIを⽤いたソーシャルリスニング概要
  • Part1. X 旧Twitter) APIの基礎(←次の記事)
  • Part2. Difyを⽤いてX APIから直近のポストを取得する
  • Part3. LLMを⽤いて⾃動でデータラベルを付与する
  • Part4. スプレッドシートにデータを格納する
  • Part5. Streamlitを⽤いたデータの可視化例
check

ヘルツレーベンでは、ライフサイエンス業界に特化したDX・自動化支援を提供しています。
PubMedや学術情報の自動収集をはじめ、Slack・Gmailなどを活用したナレッジ共有の仕組みまで、実務に直結するワークフローを設計・導入いたします。

提供サービスの例

  • 製薬・医療機器業界での提案活動や調査業務の自動化支援
  • アカデミアや研究者向けの文献レビュー・情報共有フローの最適化
  • 医療従事者のキャリア開発を支援するリスキリングプログラム

👉 ご興味をお持ちの方はぜひお気軽にお問い合わせください。
お問い合わせフォームはこちら

株式会社ヘルツレーベン代表 木下 渉

監修者 株式会社ヘルツレーベン代表 木下 渉

株式会社ヘルツレーベン 代表取締役/医療・製薬・医療機器領域に特化したDXコンサルタント/
横浜市立大学大学院 ヘルスデータサイエンス研究科 修了

製薬・医療機器企業向けのデータ利活用支援、提案代行、営業戦略支援を中心に、医療従事者向けのデジタルスキル教育にも取り組む。AI・データ活用の専門家として、企業研修、プロジェクトPMO、生成AI導入支援など幅広く活動中