ローカルLLMが医師国家試験で正答率89.7%：患者データを外に出さないAI活用

2026年2月に実施された第120回医師国家試験に、インターネット接続不要のローカルLLM（gpt-oss-120b 4bit量子化モデル）で挑戦しました。Mac Studio 1台で完全オフライン動作し、一般臨床で89.7%（269/300点）、必修で83.0%（166/200点）を達成。いずれも合格基準を上回り、クラウドAPIの最上位モデルには及ばないものの、セキュリティ要件の厳しい医療現場でも十分に活用できる水準であることが確認できました。

（GENSHI AI 代表長嶋）

0. はじめに：AIはもう医師国家試験に「余裕で」受かる時代

2026年2月7日・8日に実施された第120回医師国家試験。筆者はメディックメディアさんのAI解答精度検証プロジェクトに監修として参加しており、今回はその検証データをもとに、クラウドAPIモデルに加えてローカルLLMでの解答精度を独自に検証しました。

まず、クラウドAPIの上位モデルの結果から。もはや人間の受験者を大きく上回る成績を叩き出しています。

AIモデル別の医師国家試験スコア比較表：必修・一般臨床の得点と割合 — 各モデルの必修・一般臨床スコア一覧（メディックメディア AI解答精度検証のデータをもとに作成）

モデル	必修	一般臨床	全体正答率
GPT-5.2 Thinking	196/200（98.0%）	292/300（97.3%）	97.5%
Gemini 3 Pro	199/200（99.5%）	290/300（96.7%）	97.5%
Claude Opus 4.5	191/200（95.5%）	295/300（98.3%）	97.3%
gpt-oss-120b（ローカル）	166/200（83.0%）	269/300（89.7%）	88.8%

上位3モデル（GPT-5.2 Thinking、Gemini 3 Pro、Claude Opus 4.5）はいずれも正答率97%台。400問中わずか10問程度しか間違えないレベルです。人間の受験生がこの領域に到達するのは極めて困難であり、AIが医師国家試験において人間を超えたと言って差し支えない状況です。

しかし、本記事の主役はこれらのクラウドモデルではありません。注目すべきは4番目のモデル、gpt-oss-120bです。

1. ローカルLLMとは何か

「ローカルLLM」という言葉に馴染みのない方も多いかもしれません。まず、通常のAIサービスとの違いを整理します。

通常のAIサービス（クラウドAPI）

ChatGPTやGeminiなどのWebサービス、またはAPIを利用
入力データ（質問文、患者情報など）がインターネットを経由して外部サーバーに送信される
処理はOpenAIやGoogleなどのクラウド上で行われる
高性能だが、データが院外に出る

ローカルLLM（オンプレミス）

AIモデルのファイルを院内のサーバーやPCにダウンロードして使用
入力データは一切外部に送信されない。完全にオフラインで動作可能
処理はすべて手元のハードウェア上で完結
患者の個人情報、カルテ情報、検査データなどが院外に出ることがない

クラウドAPIの仕組み：患者データがインターネット経由で外部サーバーに送信される — クラウドAPI：データが院外に出るアーキテクチャ

ローカルLLMの仕組み：すべてのデータ処理が院内で完結する — ローカルLLM：データが一切外部に出ないアーキテクチャ

つまりローカルLLMとは、「ChatGPTと同じような大規模言語モデルを、自分の手元のマシンで動かす」技術です。ネット環境すら不要で、電源さえあれば動きます。

2. gpt-oss-120bとは

今回使用したgpt-oss-120bは、OpenAIがオープンウェイト（モデルの重みが公開されている）で提供しているモデルです。

パラメータ数：1,200億（120B）。非常に大規模なモデル
ライセンス：オープンウェイト。商用利用も可能
量子化：4bit量子化を適用し、メモリ使用量を大幅に削減

「量子化」とは、モデルの精度をわずかに犠牲にする代わりに、必要なメモリ量を劇的に減らす技術です。元のモデルは数百GBのメモリを要求しますが、4bit量子化により一般的なGPUマシンで動作可能になります。

gpt-ossは2025年8月にOpenAIが公開したオープンウェイトモデルシリーズです。アーキテクチャにはMixture of Experts（MoE）を採用しており、総パラメータ数は1,170億ですが、1トークンあたりの推論時に実際に稼働するパラメータは51億に抑えられています。これにより、巨大なモデルでありながら高速かつ省メモリで動作します。ライセンスはApache 2.0で、商用利用を含め自由に利用可能です。

汎用ベンチマークではo4-miniに近い水準ですが、注目すべきはヘルスケア領域での性能です。OpenAIが公開しているHealthBench（医療会話の品質を評価するベンチマーク）では、gpt-oss-120bはo3にほぼ匹敵するスコアを記録しています。

HealthBenchスコア比較：gpt-oss-120bがo3に迫る成績 — HealthBench（現実的な医療会話）：gpt-oss-120b 57.6 vs o3 59.8（出典：OpenAI）

HealthBench Hardスコア比較：gpt-oss-120bがo3に迫る成績 — HealthBench Hard（高難度の医療会話）：gpt-oss-120b 30.0 vs o3 31.6（出典：OpenAI）

つまり、ローカルで動作するオープンウェイトモデルでありながら、ヘルスケア領域ではOpenAIの最上位クラスのモデルに肉薄する性能を持っているということです。

動作マシンについて

今回の検証では、Apple Mac Studio（M4 Ultra / ユニファイドメモリ256GB構成）を使用しました。デスクトップサイズの筐体で、サーバールームに限らず院内のどこにでも設置できるサイズ感です。

このほか、NVIDIAが発表したDGX SparkもローカルLLM用途に適したマシンです。いずれもデスクサイズのコンパクトな筐体で、大規模モデルの推論に十分なメモリを搭載しています。

Apple Mac Studio 正面写真 — Apple Mac Studio（画像：Apple Newsroom）

NVIDIA DGX Spark 製品写真 — NVIDIA DGX Spark（画像：NVIDIA）

価格帯としては50〜100万円程度。病院のサーバー室に置けるマシン1台で、インターネットに一切接続せずに、医師国家試験の合格水準を超えるAIが手に入るということです。ローカルLLMのマシン要件については、別途詳しく解説する記事を準備中です。

3. 検証結果の詳細

3.1 必修・一般臨床の成績

医師国家試験は必修問題と一般臨床問題が別々に合否判定されます。必修は絶対基準で80%以上が必要、一般臨床は年度ごとに変動しますが概ね72%前後が合格ラインです。

gpt-oss-120bの結果は以下の通りで、いずれも合格基準を明確にクリアしています。

一般臨床：269/300点（89.7%） — 合格基準（約72%）を大きく上回る
必修：166/200点（83.0%） — 絶対基準の80%をクリア

参考までに、講師速報によると第120回の受験者の一般臨床の平均正答率は83.6%（9,269人、2月12日時点）です。gpt-oss-120bの89.7%は、受験者平均を6pt上回る水準です。

※講師速報の解答と厚労省の公式解答が一致しない場合や、削除問題が出る可能性もあるため、実際の平均点とは多少のズレがあります。

なお、今回の検証ではreasoning effort（推論の深さ）をHighに設定しており、75問を約10分程度で解答しました。クラウドAPIモデルと遜色ない処理速度です。

3.2 ブロック別の正答率

ブロック別正答率の比較グラフ：A〜Fブロックにおける各モデルの成績 — ブロック別正答率（A〜Fブロック）（同検証データをもとに作成）

ブロック別に見ると、gpt-oss-120bはすべてのブロックで84%〜92%の範囲に収まっています。特定のブロックで極端に崩れることはなく、安定した性能を発揮しています。上位モデルとの差は各ブロックで5〜14ptほどですが、いずれのブロックでも合格水準を維持しています。

3.3 現時点の限界：画像入力には非対応

ここで重要な前提を補足します。gpt-oss-120bは画像入力に対応していないテキスト専用モデルです。つまり、医師国家試験の画像あり問題（CT画像、心電図、皮膚所見の写真など）についても、画像を一切見ずにテキスト情報のみで解答しています。

画像有無別の正答率比較：テキストのみ問題と画像あり問題の差 — 画像有無別の正答率比較（同検証データをもとに作成）

画像なし問題（300問）：91.0%
画像あり問題（100問）：82.0%（画像を見ずにテキストのみで解答）

裏を返せば、テキスト情報だけでこれだけの正答率を叩き出しているということです。画像なし問題の91.0%は上位クラウドモデルとの差が6〜7ptまで縮まり、テキスト処理においてはクラウドAPIに迫る実力があることを示しています。

画像あり問題でも、問題文のテキスト部分だけで82.0%正解できているのは注目に値します。ただし、必修×画像ありの問題では56.2%（32問中18問正解）と苦戦しており、画像が解答の鍵となる問題では限界があります。

医療現場での活用を考えると、カルテのテキストデータ、問い合わせ文書、診療情報提供書の処理など、テキスト中心の業務ではクラウドAPIに近い性能が期待できます。画像を含む業務（画像診断の支援など）については、現時点ではクラウドAPIとの併用や、今後のマルチモーダル対応モデルの登場を待つ形になります。

4. 医療現場にとっての意味

4.1 3省2ガイドラインとローカルLLM

医療機関がAIを導入する際、避けて通れないのが「3省2ガイドライン」です。これは厚生労働省の「医療情報システムの安全管理に関するガイドライン」（第6.0版）と、経済産業省・総務省の「医療情報を取り扱う情報システム・サービスの提供事業者における安全管理ガイドライン」（第2.0版）を合わせた通称で、医療情報を扱うすべてのシステムが準拠を求められます。

医療情報は個人情報保護法上の「要配慮個人情報」に該当し、患者の生命に直結するデータです。ガイドラインでは、データの国内保存・国内処理、責任分界の明確化、監査対応可能なログ保存などが求められます。

クラウドAPIでこれらの要件を満たすことも不可能ではありません。筆者は別記事「医療LLM導入ガイド」で、AWS Bedrockの日本リージョン（CRIS）を活用した準拠方法を解説しています。しかし、クラウドの場合は「データがどこで処理されるか」「ベンダーとの責任分界はどうなるか」といった論点を一つひとつクリアする必要があり、導入のハードルは低くありません。

ローカルLLMなら、そもそもデータが院外に出ない。ネットワークすら不要。3省2ガイドラインにおけるデータ安全管理の論点の多くを、アーキテクチャレベルで解消できます。

ローカルLLMのセキュリティアーキテクチャ：院内完結型のデータフロー — ローカルLLMによる院内完結型アーキテクチャ：データが一切外部に出ない構成

クラウドが「ガイドラインに準拠できる」選択肢だとすれば、ローカルLLMは「そもそも論点が発生しない」選択肢です。セキュリティ審査や契約交渉にかかる時間・コストも含めて考えると、ローカルLLMの導入障壁の低さは大きなメリットとなります。

4.2 50〜100万円という導入コスト

従来、「ローカルで大規模言語モデルを動かす」と聞くと、数千万円規模のサーバー投資をイメージされるかもしれません。しかし、Apple SiliconやNVIDIA DGX Sparkのようなハードウェアの進化と、量子化技術の発展により、状況は大きく変わりました。

50〜100万円程度のハードウェアで1,200億パラメータのモデルを稼働させ、医師国家試験の合格基準を超える成績を出せる。これは数年前には想像できなかった水準です。

クラウドAPI vs ローカルLLMの累積コスト比較グラフ — 運用コストの推移イメージ：従量課金のクラウドAPIは利用量に比例してコストが増大する

クラウドAPIの利用料は従量課金であり、使えば使うほどコストが膨らみます。一方、ローカルLLMは初期投資のみで、その後は電気代だけで運用できます。日常的にAIを活用する医療機関にとって、長期的なコストメリットは無視できません。

4.3 活用が期待される場面

医師国家試験のテキストのみ問題で91.0%を記録したことからも分かるように、ローカルLLMのテキスト処理能力は高い水準にあります。以下のような業務での活用が現実的です。

ローカルLLMの活用が期待される5つの医療業務：カルテ要約、文書ドラフト、文献検索、患者説明、院内Q&A — テキスト処理の高い精度を活かせる医療業務

カルテ・退院サマリーの要約・構造化：テキストベースの処理で高い精度が期待できる
紹介状・診療情報提供書のドラフト作成：定型文書の下書きを自動生成
医療文献の検索・要約：院内の文献データベースと組み合わせた情報検索
患者説明資料の作成支援：平易な表現への変換や多言語対応
院内問い合わせ対応：薬剤情報や院内ルールに関するQ&A

5. GENSHI AIが提供するローカルLLMソリューション

GENSHI AIは、このローカルLLM技術を医療機関向けに最適化して提供しています。

単にモデルをインストールして終わりではなく、医療現場の業務フローに合わせたカスタマイズ、RAG（検索拡張生成）による院内ナレッジとの連携、そして継続的な運用支援まで、一気通貫で対応します。

モデル選定・量子化の最適化：用途とハードウェアに合わせた最適な構成を設計
院内データとの連携（RAG）：診療ガイドライン、院内マニュアル、過去症例などを参照可能に
セキュリティ設計：3省2ガイドラインを踏まえた院内完結型のアーキテクチャ
UI/UX設計：医療スタッフが直感的に使えるインターフェース

「AIを使いたいが、患者データを外に出せない」という医療機関のジレンマに対して、ローカルLLMは現実的な解を提供します。

6. まとめ

第120回医師国家試験の結果は、2つのことを示しています。

第一に、AIはもはや医師国家試験において人間を超えているということ。上位モデルの正答率97%台は、人間の受験者が到達するのが極めて困難な水準です。

第二に、クラウドに頼らずとも、50〜100万円のローカル環境で十分に実用的なAI性能が得られるということ。gpt-oss-120bは一般臨床89.7%・必修83.0%と、いずれも合格基準を超え、一般臨床では受験者平均すら上回りました。画像処理を除けばクラウドAPIの上位モデルに迫る水準であり、テキストベースの医療業務に十分活用できることを示しています。

セキュリティとAI活用の両立は、もはや「どちらかを諦める」問題ではありません。ローカルLLMという選択肢が、その二律背反を解消しつつあります。

GENSHI AIは、この技術を医療現場に届けるための実装と運用を支援しています。ご関心のある医療機関の方は、お気軽にお問い合わせください。