中文字幕在线观看网址|激情av片在线免费观看|免费亚洲欧美视频|日本按摩高潮A级中文片不

<rt id="m2u44"><code id="m2u44"></code></rt>

<dfn id="m2u44"></dfn>

<dfn id="m2u44"><source id="m2u44"></source></dfn>

<menu id="m2u44"></menu>

量子位前天

GPT-4o 醫(yī)學(xué)知識覆蓋率僅 55%？騰訊優(yōu)圖團(tuán)隊發(fā)布大模型醫(yī)療能力“體檢報告”

醫(yī)療大模型知識覆蓋度首次被精準(zhǔn)量化！

在醫(yī)療領(lǐng)域，大語言模型（LLM）的潛力令人振奮，但其知識儲備是否足夠可靠？騰訊優(yōu)圖實驗室天衍研究中心的最新研究給出了答案。

他們提出的MedKGEval 框架，首次通過醫(yī)療知識圖譜（KG）的多層級評估，系統(tǒng)揭示了 GPT-4o 等主流模型的醫(yī)學(xué)知識覆蓋度。

該研究已被 WWW 2025 會議 Web4Good Track 錄用為口頭報告（oral）。目前，WWW 2025 正在悉尼舉行，會議時間從 4 月 28 日持續(xù)至 5 月 2 日。

背景

大語言模型（LLM）在醫(yī)療領(lǐng)域的快速發(fā)展凸顯了其知識存儲與處理的潛力，但其臨床部署前的可靠性驗證亟需更系統(tǒng)化的評估框架。

當(dāng)前主流的 Prompt-CBLUE、Medbench 和 MedJourney 等評估體系雖通過醫(yī)學(xué)問答基準(zhǔn)測試 LLM 的任務(wù)執(zhí)行能力，卻存在三個明顯的局限：

1）其長尾數(shù)據(jù)分布導(dǎo)致罕見病癥覆蓋不足，評測結(jié)果存在偏差；

2）任務(wù)導(dǎo)向的設(shè)計聚焦疾病預(yù)測、用藥咨詢等單一場景，難以量化模型內(nèi)在醫(yī)學(xué)知識儲量；

3）傳統(tǒng)問答形式局限于表面對錯判斷，無法捕捉醫(yī)學(xué)概念間的復(fù)雜拓?fù)潢P(guān)聯(lián)。

為解決這些問題，本文提出基于醫(yī)療知識圖譜（KG）的多層級評估框架 MedKGEval。

醫(yī)療 KG 通過結(jié)構(gòu)化存儲復(fù)雜實體關(guān)系網(wǎng)絡(luò)，為評估提供天然基準(zhǔn)。框架創(chuàng)新性地設(shè)計三級評估體系：實體層評估醫(yī)學(xué)概念理解，關(guān)系層檢驗醫(yī)學(xué)關(guān)聯(lián)區(qū)分能力，子圖層驗證結(jié)構(gòu)化推理水平。

通過真?zhèn)闻袛嗪投噙x題形式，同時實現(xiàn)任務(wù)導(dǎo)向（task-oriented）的粗粒度性能評估與知識導(dǎo)向（knowledge-oriented）的細(xì)粒度三重覆蓋度測量（實體 / 關(guān)系 / 知識三元組）。

醫(yī)療知識覆蓋度評估框架 MedKGEval

在 MedKGEval 中研究團(tuán)隊設(shè)計了多層級的任務(wù)體系，其中包含 3 個層級的 9 項核心任務(wù)，通過真?zhèn)闻袛啵═FQ）與多選題（MCQ）任務(wù)形式，實現(xiàn)任務(wù)導(dǎo)向與知識導(dǎo)向的雙重評測。

具體評估流程框架見下圖。

任務(wù)架構(gòu)設(shè)計

基于醫(yī)療知識圖譜的實體、關(guān)系、三元組結(jié)構(gòu)，構(gòu)建三級評估體系：

實體層面（3 項任務(wù)）：驗證醫(yī)學(xué)概念理解

實體類型標(biāo)注（ET）：通過多選題識別 " 糖尿病 " 等實體的分類標(biāo)簽（如疾病 / 癥狀）

實體聚類（EC）：從 5 個實體中辨識類型異常項（如混入癥狀類別的藥物實體）

實體消歧（ED）：判斷兩個實體是否等價，比如 " 阿司匹林 " 與 " 乙酰水楊酸 " 是否為等價實體

關(guān)系層面（3 項任務(wù)）：檢驗醫(yī)學(xué)關(guān)聯(lián)認(rèn)知

關(guān)系類型標(biāo)注（RT）：選擇 " 并發(fā)癥 " 關(guān)系可連接的實體類型對（如疾病→疾?。?/p>

事實核驗（FC）：判斷三元組的真?zhèn)危热?" 布洛芬 - 治療 - 偏頭痛 "

關(guān)系預(yù)測（RP）：補(bǔ)全實體之間缺失的關(guān)系，比如 " 冠狀動脈硬化→ ( ? ) →心肌梗死 "

子圖層面（3 項任務(wù)）：評估結(jié)構(gòu)化推理

錯誤識別（ER）：從 5 個三元組中檢測異常項（如錯誤藥物禁忌關(guān)系）

子圖推理 1（R1）：基于多跳關(guān)系推理，比如基于 " 高血壓→并發(fā)癥→腦出血→影像檢查→ CT" 路徑，推斷 " 高血壓→影像檢查→ CT" 是否成立

子圖推理 2（R2）：在相同推理鏈中，從候選關(guān)系中選擇正確關(guān)聯(lián)

隨著利用的 KG 信息增多，任務(wù)難度也在逐漸升高，這樣階梯式、多層級的評估更有利用全面了解 LLMs 的性能。

任務(wù)導(dǎo)向和知識導(dǎo)向的評估機(jī)制

在每項任務(wù)中均配備評估核心實體 / 關(guān)系映射（如上圖 core E and R），實現(xiàn)細(xì)粒度知識覆蓋分析：

任務(wù)導(dǎo)向評估：計算準(zhǔn)確率指標(biāo)

知識導(dǎo)向評估：

實體覆蓋率：實體正確率均值（CovAvg-E）、引入節(jié)點中心度加權(quán)（CovDeg-E）

關(guān)系覆蓋率：關(guān)系正確率均值（CovAvg-R）、按關(guān)系出現(xiàn)頻次加權(quán)（CovDeg-R）

三元組覆蓋率 Cov-T：反映知識單元整體掌握度

實驗及評估結(jié)果

MedKGEval 選用中文醫(yī)療領(lǐng)域主流知識圖譜 CPubMedKG 和 CMeKG 作為基準(zhǔn)，經(jīng)下采樣構(gòu)建實驗數(shù)據(jù)集。

評估模型涵蓋三大類：1）開源通用模型；2）醫(yī)療垂類模型；3）閉源模型。

下表展示了 11 個 LLM 的任務(wù)導(dǎo)向評估結(jié)果，可以看到：GPT-4o 以 70.65% 平均準(zhǔn)確率領(lǐng)先；同架構(gòu) LLM 參數(shù)量翻倍帶來 3-5% 準(zhǔn)確率提升；大多 LLM 在實體層面任務(wù)上表現(xiàn)優(yōu)于關(guān)系和子圖層面；通用模型性能超越醫(yī)療垂類模型（歸因分析：垂類模型微調(diào)數(shù)據(jù)側(cè)重具體任務(wù)（如用藥咨詢、醫(yī)患對話摘要），導(dǎo)致醫(yī)學(xué)知識廣度受限）。

下表展示了 11 個 LLM 的知識導(dǎo)向評估結(jié)果，可以看到：GPT-4o 在 CPubMedKG ( small ) 上覆蓋了 65.66% 的實體、55.60% 的關(guān)系、62.31% 的三元組；更大的參數(shù)量通常會帶來更高的知識覆蓋度；CovAvg 和 CovDeg 的對比體現(xiàn)出了 LLM 對高關(guān)聯(lián)度實體（如糖尿?。┖透哳l關(guān)系（如鑒別診斷）的偏好性：CovAvg < CovDeg 說明 LLM 在高關(guān)聯(lián)度實體的上表現(xiàn)更好、反之說明 LLM 在低關(guān)聯(lián)度實體上表現(xiàn)更好。

接下來，研究團(tuán)隊使用 MedKGEval 評估框架對四個示例 LLM 在關(guān)聯(lián)度最高的 15 個實體和最高頻的 15 個關(guān)系上的知識覆蓋情況進(jìn)行分析。

以常用臨床實體 " 超聲 " 為例，可以看到 GPT-4o 以 94.16% 正確率領(lǐng)先，Qwen2-7B（88.83%）、WiNGPT2（85.41%）次之。

在醫(yī)學(xué)關(guān)系覆蓋度上，4 個 LLM 也表現(xiàn)出了類似的特點。

分析結(jié)果表明，MedKGEval 能有效定位 LLM 在特定醫(yī)學(xué)知識領(lǐng)域的認(rèn)知缺陷。

這些發(fā)現(xiàn)對模型優(yōu)化具有重要指導(dǎo)價值：如上圖所示，WiNGPT 在 " 肺結(jié)核 " 實體相關(guān)問答中表現(xiàn)欠佳、Baichuan2-13B 在 " 相關(guān)（轉(zhuǎn)換）" 關(guān)系中存在明顯短板。

因此，在下輪微調(diào)中建議針對性補(bǔ)充結(jié)核病診療指南和病理轉(zhuǎn)化機(jī)制相關(guān)數(shù)據(jù)，通過基于知識缺陷診斷的定向增強(qiáng)策略，可顯著提升醫(yī)療領(lǐng)域 LLM 的整體性能。

總結(jié)

本文提出的 MedKGEval 框架通過醫(yī)療 KG 視角，構(gòu)建了評估 LLM 醫(yī)學(xué)知識覆蓋度的多維度體系。

該框架在實體、關(guān)系和子圖三個層級展開評估，系統(tǒng)揭示了當(dāng)前大語言模型在醫(yī)學(xué)知識存儲與推理能力方面的優(yōu)勢與局限。

研究團(tuán)隊提出的的任務(wù)導(dǎo)向與知識導(dǎo)向雙軌評估機(jī)制，不僅能夠精準(zhǔn)定位模型的知識薄弱環(huán)節(jié)，更為提升醫(yī)療領(lǐng)域 LLM 的可靠性和臨床應(yīng)用價值提供了量化依據(jù)。

論文地址：https://dl.acm.org/doi/10.1145/3696410.3714535

代碼地址：https://github.com/ZihengZZH/MedKGEval

一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法！

— 完 —

學(xué)術(shù)投稿請于工作日發(fā)郵件到：

ai@qbitai.com

標(biāo)題注明【投稿】，告訴我們：

你是誰，從哪來，投稿內(nèi)容

附上論文 / 項目主頁鏈接，以及聯(lián)系方式哦

我們會（盡量）及時回復(fù)你

點亮星標(biāo)

科技前沿進(jìn)展每日見

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關(guān)標(biāo)簽

ct 糖尿病高血壓

相關(guān)閱讀

今年5月至少有17款重磅新機(jī) 華OV線下發(fā)力小米有驚喜？

數(shù)碼測評 1小時前

高通驍龍8s Gen4勁敵！聯(lián)發(fā)科天璣9400e來了：一加全球首發(fā)

快科技 29分鐘前

騰訊3億押注，2 年收入漲3.6倍，沖鋒衣 “平替之王” 如何煉成？

36氪 1小時前

小米板王！小米平板7 Ultra現(xiàn)身

快科技 1小時前

美團(tuán)推“自帶杯立減” 首年預(yù)計萬家飲品店響應(yīng)環(huán)保號召

快科技 1小時前

華為推新固態(tài)硬盤：速度2000MB/s 1TB版本769元

快科技 2小時前

蘋果手機(jī)為何無法在美制造：原因揭開

快科技 3小時前

有人狂賺2.5億，出海短劇殺瘋了

網(wǎng)易娛樂 21分鐘前

星紀(jì)魅族StarV Air2體驗：超實用，智能眼鏡集大成者！

雷科技 1小時前

充電黑科技又火了！秒殺快充？

雷科技 1小時前

小米停止推送限制馬力OTA，華為鴻蒙PC版本月發(fā)布，GTA6延期，微軟Xbox漲價：這就是今天的其他大新聞！

差評 11小時前

美團(tuán)反擊力度小？知情人稱：內(nèi)部認(rèn)為京東沒有抖音威脅大

差評 11小時前

性價比之王！真我 GT7 Pro力壓iQOO、紅米斬獲3000元檔性價比手機(jī)冠軍

快科技 13小時前

最新評論

沒有更多評論了

量子位

訂閱

覺得文章不錯，微信掃描分享好友

掃碼分享

熱門推薦

68頁論文再錘大模型競技場！Llama4發(fā)布前私下測試27個版本，只取最佳成績量子位

Blockchain News