Claude 医療AI導入事例——専門判断を伴う読解業務を 66% 圧縮するハイブリッドインテリジェンス設計

に公開
AI AgentAI導入事例AI活用ハイブリッドインテリジェンス医療AIClaude 導入事例

この記事でわかること

  • Carta Healthcare が 22,000 件/年・14 施設で達成した「読み取り作業を AI に任せ、人は判断・確認に集中する」業務再設計の構造
  • Claude を活用した医療AI導入事例として学ぶ、2 段階処理設計(Haiku 3.5・Sonnet 4 → Sonnet)による精度と速度の両立
  • 自社業務に「ハイブリッドインテリジェンス」モデルを当てはめる際の判断基準

スタンフォード小児病院から始まった「臨床データ抽象化」の課題

臨床データ抽象化——本記事では「専門判断を伴う読解業務」とも呼びます——とは、手術記録や診療記録を読み解いて必要な項目を特定・記録する専門作業です(「データ構造化」よりも読み取り・解釈を重視した概念です)。品質管理や研究に使える構造化データを取り出すことが目的であり、具体的には「この患者の手術後の合併症はどのカテゴリに分類されるか」「輸血量は何単位だったか」といった問いに対して、数十〜数百ページの診療記録から正確な値を特定し、登録データベースに入力していきます。具体的には「この患者の手術後の合併症はどのカテゴリに分類されるか」「輸血量は何単位だったか」といった問いに対して、数十〜数百ページの診療記録から正確な値を特定し、登録データベースに入力していきます。

Carta Healthcare はこの作業を専門に扱う企業として、スタンフォード小児病院の内部プロジェクトから生まれました。当初は臨床研究と医療品質向上のための「手作業」として行われていたこの業務が、規模の拡大とともに深刻な非効率を生むようになりました。

通常の手術ケース 1 件あたり 30 分、複雑なケースでは 5〜6 時間を要する作業が、14 施設・年間 22,000 件というスケールになると、単純計算でも年間数万時間の専門スタッフの工数が費やされます。さらに「施設が変わると判定が変わる」「担当者が替わると精度が落ちる」という品質のばらつきも大きな課題でした。

この業務に AI Agent を組み込む選択は、「効率化ツールを導入する」という発想からではなく、「業務工程そのものを再設計する」という視点から始まっています。

Lighthouse が医療AI業務にもたらした役割転換

Carta が開発した AI 業務基盤「Lighthouse(ライトハウス)」は、電子カルテや手術記録といった構造化・非構造化データの両方を処理し、臨床文脈を理解した上で、各設問への回答候補を直接引用とともに提示するシステムです(Anthropic 公式 case study より)。

Lighthouse の導入後、処理時間は大きく変わりました。

  • 通常ケース: 30 分 → 15〜22 分(約 40〜50% 削減)
  • 複雑ケース: 5〜6 時間 → 90 分(最大 75% 削減)
  • 全体平均: 66% の時間削減
  • 年間換算: 3,667〜6,050 時間の労働時間削減(14 施設合計)

数字の背後にある変化は、「アブストラクター(臨床記録から必要なデータを抽出する専門スタッフ)が何に時間を使うか」という役割の転換です。Lighthouse 導入前は、スタッフが診療記録のどこにその情報があるかを探し回ることに大半の時間を費やしていました。Lighthouse 導入後は、AI が証拠付きで候補を提示し、スタッフは「その回答が正しいか」の判断に専念できます。

Carta の VP of Engineering and CISO である Andrew Crowder 氏は、Claude を選んだ理由として「推論と文脈理解の能力に加え、バイアスとモデルの整合性に関する研究論文が、厳格な病院の AI 審査プロセスを通過できる水準にあった」と説明しています(Anthropic 公式 case study より)。医療現場では AI の導入に際して倫理的・組織的な審査が不可欠であり、この観点は医療以外の業界でも「統制の説明責任」として参照価値があります。

ハイブリッドインテリジェンスの設計思想

よくある見方: AI が業務に入ると、人の仕事が減るか、人が AI の補助役になる。

実態は: Carta が示したのは、人と AI の役割を「情報抽出」と「判断・検証」に分離し、それぞれが最も得意な領域に専念する「ハイブリッドインテリジェンス」の構造です。AI が人を置き換えたのではなく、人が最も付加価値を発揮できる仕事に集中できるよう、業務分担を再設計したことが 66% 圧縮の本質です。

Lighthouse を長年使ってきた経験豊富なアブストラクターは、当初 AI に対して懐疑的でした。しかし実際に使い込んだ後、こう評価しています。「Lighthouse は私の判断を置き換えるのではなく、強化してくれる」(Anthropic 公式 case study より)。今では複雑なケースの検証ツールとして活用し、術後の投薬情報も見落とさないようになったと言います。

この構造は医療に限りません。財務データの照合、法務文書のレビュー、製造品質のチェックなど、「膨大な記録から特定の情報を探し出す」という工程を含む業務であれば、同じ設計思想が当てはまります。AI が「情報抽出」を担い、人が「判断・検証」に専念する——この分離が、既存のスタッフの専門性を活かしながら処理能力を大きく拡張します。

既存のチームが積み上げてきた専門知識と判断基準は、ハイブリッドインテリジェンスの土台になります。「AI が全部やる」でも「今のまま人手でやる」でもなく、「人の判断力を最大化するために AI が情報処理を担う」という構造設計がその中心にあります。

Claude の 2 段階設計が IRR 98〜99% と 66% 圧縮を両立できた理由

精度を落とさずに速度を上げることは、AI を業務に組み込む際の最も難しい課題の一つです。Carta はこれを 2 段階の処理設計で解決しました(Anthropic 公式 case study より)。

Phase 1 — 情報抽出: Claude Haiku 3.5 と Sonnet 4 が、診療記録から関連情報を幅広く抽出します。この段階では「網羅性」が優先され、複数モデルを並走させることで抜け漏れを防ぎます。

Phase 2 — 証拠統合と回答候補の生成: Claude Sonnet が Phase 1 の抽出結果を統合し、各設問に対して「最も信頼性が高い回答」をエビデンスとともにランク付けして提示します。

この 2 段階設計のポイントは、各モデルに「適切な難易度の仕事を割り当てる」ことです。広く速く探すフェーズと、深く推論して統合するフェーズを分離することで、処理の精度と速度の両方を最大化しています。

結果として、IRR(施設間でアブストラクターが異なっても同じ判定を出す精度を示す指標)は 98〜99% を維持し、コストは 50% 以上削減 されています。Carta の顧客継続率は 100%、顧客の 90% が時間の経過とともに利用を拡大しています(Anthropic 公式 case study より)。この数字は、精度と速度のトレードオフを解消したシステムでなければ生まれません。

Anthropic が 2026 年 5 月 14 日に公開した「The Founder's Playbook」では、Carta はこのような「業務に深く組み込まれた AI 統合」の代表事例として紹介されています。Crowder 自身が「悪名高いほど脆弱(notoriously brittle)」と表現するように、病院の IT インフラは施設ごとに大きく異なる複雑な環境ですが、そこでも一貫した精度と拡張性を保てた点が評価の背景にあります。

自社業務に当てはめるときに問うべき 3 つの問い

Carta の事例から業界横断で応用できる判断軸として、3 つの問いを提示します。

1. 現在の業務に「情報抽出」と「判断・検証」が混在しているか

ハイブリッドインテリジェンスが最も効果を発揮するのは、情報抽出と判断・検証が一人のスタッフに混在している業務です。財務担当者が膨大なデータから異常値を探しながら判断もする、法務担当者が契約書を読み込みながらリスクを判断する——このような業務は、「情報抽出」を AI に移すことで「判断・検証」の質が上がる余地があります。

自社の業務フローを書き出したとき、「情報を探す時間」と「その情報をもとに判断する時間」の割合を見てみることが出発点になります。

2. 精度の基準が明確に定義できるか

Carta が IRR 98〜99% を目標にできたのは、「正しい回答」が医療登録基準として外部から明確に定義されていたからです。AI の処理結果を検証する基準が曖昧な業務では、精度の維持が難しくなります。

「何をもって正解とするか」が定義できる業務から始めることが、失敗リスクを下げる条件になります。40% のプロジェクトが失敗する AI Agent 案件 の多くは、この「完了条件の未定義」が根本原因です。

3. 既存スタッフの専門知識が検証力として機能するか

Carta の事例でアブストラクターが懐疑から活用へと転換したのは、自分の専門知識が「AI の出力を検証する能力」として再評価されたからです。「AI が出した答えが正しいかどうか判断できる専門性」は、AI を現場に組み込んだ後も重要な人の役割として残ります。

逆に言えば、専門的な判断基準を組織内に持っていない業務では、AI が出した回答の品質を担保できなくなります。組織知を AI Agent の業務標準(SOP)に変換する設計 と組み合わせると、既存の専門知識を AI 活用の土台として使う道筋が見えてきます。

アクションチェックリスト

アクション内容
業務の「抽出と検証」の分解自社の業務工程を「情報抽出」と「判断・検証」に整理し、AI に移せる領域と人が担うべき領域を特定する
精度基準と完了条件の定義AI 処理結果の正誤を判断する基準を決める。Carta の IRR のように、客観的な評価軸を設計の出発点に置く
2 段階処理モデルの設計相談Carta 型の 2 段階設計(広い抽出 → 深い統合)が自社業務に当てはまるか、精度・速度・コストの要件を整理して専門家と確認する

自社業務の「読み取り」と「判断」の分解、AI モデル使い分けの段階設計、人の役割の整理まで、ハイブリッドインテリジェンス型の現場活用の道筋を一緒に考えます。

FAQ

Q: 当社は医療業界ではないが、Carta 事例は参考になるか

医療は特にデータの複雑さと精度要件が高い分野ですが、Carta の設計思想は業界を問わず応用できます。「大量の記録から必要な情報を探し出す」「施設や担当者が変わっても同じ品質を保つ」という課題は、金融、製造、法務、不動産など多くの業務に共通します。特に「情報抽出に時間がかかっており、人の判断力が十分に活かせていない」と感じている業務であれば、同じ設計思想が機能します。

Q: IRR 98〜99% を維持できた理由は何か

Carta が精度を維持できた理由は 2 点あります。まず、AI が「回答を断言する」のではなく「証拠付きで候補をランク付けして提示する」設計にしたことで、最終判断を人が担う構造を保ちました。次に、2 段階処理(幅広い抽出 → 深い統合)によって、一つのモデルに全処理を任せる場合のリスクを分散させています。AI が自信を持って答えられない部分は人が判断するという分業が、高い IRR の維持を可能にしています。

Q: 日本の医療機関や国内業務で同様の AI 統合は実装可能か

技術的な実装は可能ですが、日本では医療情報の取り扱いや患者データの二次利用に関する法制度(医療法、個人情報保護法、厚生労働省のガイドライン)への適合が別途必要になります。Carta の事例は米国の医療登録制度を前提にしており、日本での直接移植には法制度の確認が必要です。一方で、医療以外の業務(社内文書の照合、契約書レビュー、製造品質チェック)であれば、同様の設計思想を国内でも実装した事例があります。

参考リンク

AI戦略の策定から現場への定着まで、一貫してご支援しています