【OpenAI開源HealthBench，60個國家合力開發5000段真實對話】_快訊

【OpenAI開源HealthBench，60個國家合力開發5000段真實對話】

來源：真灼财經時間：2025-05-13 06:36:53

字号

【OpenAI開源HealthBench，60個國家合力開發5000段真實對話】5月12日，OpenAI開源了一個專門面向醫療大模型的測試評估集——HealthBench。與以往測試集不同的是，該測試集的5000段核心測試對話，全部由來自60個國家/地區的26個專業262名醫生打造，極大增強了該測試集的難度、真實性以及豐富度。并且采用了多輪對話測試，而不是簡單的答題或選擇題模式。根據測試數據顯示，大模型在醫療保健領域的表現有了顯著提升。例如，從之前的GPT-3.5Turbo的16%到GPT-4o的32%，再到o3的60%，整體性能有了顯著進步。尤其是小型模型的進步更為突出，GPT-4.1nano不僅在性能上超越了GPT-4o，而且成本降低了25倍。

簡 繁

【OpenAI開源HealthBench，60個國家合力開發5000段真實對話】

簡

繁