中文字幕在线观看网址|激情av片在线免费观看|免费亚洲欧美视频|日本按摩高潮A级中文片不

  • <rt id="m2u44"><code id="m2u44"></code></rt>
    <dfn id="m2u44"></dfn>
  • <dfn id="m2u44"><source id="m2u44"></source></dfn>
  • <menu id="m2u44"></menu>
    
    
    關(guān)于ZAKER 合作
    量子位 前天

    GPT-4o 醫(yī)學(xué)知識覆蓋率僅 55%?騰訊優(yōu)圖團(tuán)隊發(fā)布大模型醫(yī)療能力“體檢報告”

    醫(yī)療大模型知識覆蓋度首次被精準(zhǔn)量化!

    在醫(yī)療領(lǐng)域,大語言模型(LLM)的潛力令人振奮,但其知識儲備是否足夠可靠?騰訊優(yōu)圖實驗室天衍研究中心的最新研究給出了答案。

    他們提出的MedKGEval 框架,首次通過醫(yī)療知識圖譜(KG)的多層級評估,系統(tǒng)揭示了 GPT-4o 等主流模型的醫(yī)學(xué)知識覆蓋度。

    該研究已被 WWW 2025 會議 Web4Good Track 錄用為口頭報告(oral)。目前,WWW 2025 正在悉尼舉行,會議時間從 4 月 28 日持續(xù)至 5 月 2 日。

    背景

    大語言模型(LLM)在醫(yī)療領(lǐng)域的快速發(fā)展凸顯了其知識存儲與處理的潛力,但其臨床部署前的可靠性驗證亟需更系統(tǒng)化的評估框架。

    當(dāng)前主流的 Prompt-CBLUE、Medbench 和 MedJourney 等評估體系雖通過醫(yī)學(xué)問答基準(zhǔn)測試 LLM 的任務(wù)執(zhí)行能力,卻存在三個明顯的局限:

    1)其長尾數(shù)據(jù)分布導(dǎo)致罕見病癥覆蓋不足,評測結(jié)果存在偏差;

    2)任務(wù)導(dǎo)向的設(shè)計聚焦疾病預(yù)測、用藥咨詢等單一場景,難以量化模型內(nèi)在醫(yī)學(xué)知識儲量;

    3)傳統(tǒng)問答形式局限于表面對錯判斷,無法捕捉醫(yī)學(xué)概念間的復(fù)雜拓?fù)潢P(guān)聯(lián)。

    為解決這些問題,本文提出基于醫(yī)療知識圖譜(KG)的多層級評估框架 MedKGEval。

    醫(yī)療 KG 通過結(jié)構(gòu)化存儲復(fù)雜實體關(guān)系網(wǎng)絡(luò),為評估提供天然基準(zhǔn)。框架創(chuàng)新性地設(shè)計三級評估體系:實體層評估醫(yī)學(xué)概念理解,關(guān)系層檢驗醫(yī)學(xué)關(guān)聯(lián)區(qū)分能力,子圖層驗證結(jié)構(gòu)化推理水平。

    通過真?zhèn)闻袛嗪投噙x題形式,同時實現(xiàn)任務(wù)導(dǎo)向(task-oriented)的粗粒度性能評估與知識導(dǎo)向(knowledge-oriented)的細(xì)粒度三重覆蓋度測量(實體 / 關(guān)系 / 知識三元組)。

    醫(yī)療知識覆蓋度評估框架 MedKGEval

    在 MedKGEval 中研究團(tuán)隊設(shè)計了多層級的任務(wù)體系,其中包含 3 個層級的 9 項核心任務(wù),通過真?zhèn)闻袛啵═FQ)與多選題(MCQ)任務(wù)形式,實現(xiàn)任務(wù)導(dǎo)向與知識導(dǎo)向的雙重評測。

    具體評估流程框架見下圖。

    任務(wù)架構(gòu)設(shè)計

    基于醫(yī)療知識圖譜的實體、關(guān)系、三元組結(jié)構(gòu),構(gòu)建三級評估體系:

    實體層面(3 項任務(wù)):驗證醫(yī)學(xué)概念理解

    實體類型標(biāo)注(ET):通過多選題識別 " 糖尿病 " 等實體的分類標(biāo)簽(如疾病 / 癥狀)

    實體聚類(EC):從 5 個實體中辨識類型異常項(如混入癥狀類別的藥物實體)

    實體消歧(ED):判斷兩個實體是否等價,比如 " 阿司匹林 " 與 " 乙酰水楊酸 " 是否為等價實體

    關(guān)系層面(3 項任務(wù)):檢驗醫(yī)學(xué)關(guān)聯(lián)認(rèn)知

    關(guān)系類型標(biāo)注(RT):選擇 " 并發(fā)癥 " 關(guān)系可連接的實體類型對(如疾病→疾?。?/p>

    事實核驗(FC):判斷三元組的真?zhèn)危热?" 布洛芬 - 治療 - 偏頭痛 "

    關(guān)系預(yù)測(RP):補(bǔ)全實體之間缺失的關(guān)系,比如 " 冠狀動脈硬化→ ( ? ) →心肌梗死 "

    子圖層面(3 項任務(wù)):評估結(jié)構(gòu)化推理

    錯誤識別(ER):從 5 個三元組中檢測異常項(如錯誤藥物禁忌關(guān)系)

    子圖推理 1(R1):基于多跳關(guān)系推理,比如基于 " 高血壓→并發(fā)癥→腦出血→影像檢查→ CT" 路徑,推斷 " 高血壓→影像檢查→ CT" 是否成立

    子圖推理 2(R2):在相同推理鏈中,從候選關(guān)系中選擇正確關(guān)聯(lián)

    隨著利用的 KG 信息增多,任務(wù)難度也在逐漸升高,這樣階梯式、多層級的評估更有利用全面了解 LLMs 的性能。

    任務(wù)導(dǎo)向和知識導(dǎo)向的評估機(jī)制

    在每項任務(wù)中均配備評估核心實體 / 關(guān)系映射(如上圖 core E and R),實現(xiàn)細(xì)粒度知識覆蓋分析:

    任務(wù)導(dǎo)向評估:計算準(zhǔn)確率指標(biāo)

    知識導(dǎo)向評估:

    實體覆蓋率:實體正確率均值(CovAvg-E)、引入節(jié)點中心度加權(quán)(CovDeg-E)

    關(guān)系覆蓋率:關(guān)系正確率均值(CovAvg-R)、按關(guān)系出現(xiàn)頻次加權(quán)(CovDeg-R)

    三元組覆蓋率 Cov-T:反映知識單元整體掌握度

    實驗及評估結(jié)果

    MedKGEval 選用中文醫(yī)療領(lǐng)域主流知識圖譜 CPubMedKG 和 CMeKG 作為基準(zhǔn),經(jīng)下采樣構(gòu)建實驗數(shù)據(jù)集。

    評估模型涵蓋三大類:1)開源通用模型;2)醫(yī)療垂類模型;3)閉源模型。

    下表展示了 11 個 LLM 的任務(wù)導(dǎo)向評估結(jié)果,可以看到:GPT-4o 以 70.65% 平均準(zhǔn)確率領(lǐng)先;同架構(gòu) LLM 參數(shù)量翻倍帶來 3-5% 準(zhǔn)確率提升;大多 LLM 在實體層面任務(wù)上表現(xiàn)優(yōu)于關(guān)系和子圖層面;通用模型性能超越醫(yī)療垂類模型(歸因分析:垂類模型微調(diào)數(shù)據(jù)側(cè)重具體任務(wù)(如用藥咨詢、醫(yī)患對話摘要),導(dǎo)致醫(yī)學(xué)知識廣度受限)。

    下表展示了 11 個 LLM 的知識導(dǎo)向評估結(jié)果,可以看到:GPT-4o 在 CPubMedKG ( small ) 上覆蓋了 65.66% 的實體、55.60% 的關(guān)系、62.31% 的三元組;更大的參數(shù)量通常會帶來更高的知識覆蓋度;CovAvg 和 CovDeg 的對比體現(xiàn)出了 LLM 對高關(guān)聯(lián)度實體(如糖尿?。┖透哳l關(guān)系(如鑒別診斷)的偏好性:CovAvg < CovDeg 說明 LLM 在高關(guān)聯(lián)度實體的上表現(xiàn)更好、反之說明 LLM 在低關(guān)聯(lián)度實體上表現(xiàn)更好。

    接下來,研究團(tuán)隊使用 MedKGEval 評估框架對四個示例 LLM 在關(guān)聯(lián)度最高的 15 個實體和最高頻的 15 個關(guān)系上的知識覆蓋情況進(jìn)行分析。

    以常用臨床實體 " 超聲 " 為例,可以看到 GPT-4o 以 94.16% 正確率領(lǐng)先,Qwen2-7B(88.83%)、WiNGPT2(85.41%)次之。

    在醫(yī)學(xué)關(guān)系覆蓋度上,4 個 LLM 也表現(xiàn)出了類似的特點。

    分析結(jié)果表明,MedKGEval 能有效定位 LLM 在特定醫(yī)學(xué)知識領(lǐng)域的認(rèn)知缺陷。

    這些發(fā)現(xiàn)對模型優(yōu)化具有重要指導(dǎo)價值:如上圖所示,WiNGPT 在 " 肺結(jié)核 " 實體相關(guān)問答中表現(xiàn)欠佳、Baichuan2-13B 在 " 相關(guān)(轉(zhuǎn)換)" 關(guān)系中存在明顯短板。

    因此,在下輪微調(diào)中建議針對性補(bǔ)充結(jié)核病診療指南和病理轉(zhuǎn)化機(jī)制相關(guān)數(shù)據(jù),通過基于知識缺陷診斷的定向增強(qiáng)策略,可顯著提升醫(yī)療領(lǐng)域 LLM 的整體性能。

    總結(jié)

    本文提出的 MedKGEval 框架通過醫(yī)療 KG 視角,構(gòu)建了評估 LLM 醫(yī)學(xué)知識覆蓋度的多維度體系。

    該框架在實體、關(guān)系和子圖三個層級展開評估,系統(tǒng)揭示了當(dāng)前大語言模型在醫(yī)學(xué)知識存儲與推理能力方面的優(yōu)勢與局限。

    研究團(tuán)隊提出的的任務(wù)導(dǎo)向與知識導(dǎo)向雙軌評估機(jī)制,不僅能夠精準(zhǔn)定位模型的知識薄弱環(huán)節(jié),更為提升醫(yī)療領(lǐng)域 LLM 的可靠性和臨床應(yīng)用價值提供了量化依據(jù)。

    論文地址:https://dl.acm.org/doi/10.1145/3696410.3714535

    代碼地址:https://github.com/ZihengZZH/MedKGEval

    一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

    歡迎在評論區(qū)留下你的想法!

    學(xué)術(shù)投稿請于工作日發(fā)郵件到:

    ai@qbitai.com

    標(biāo)題注明【投稿】,告訴我們:

    你是誰,從哪來,投稿內(nèi)容

    附上論文 / 項目主頁鏈接,以及聯(lián)系方式哦

    我們會(盡量)及時回復(fù)你

    點亮星標(biāo)

    科技前沿進(jìn)展每日見

    相關(guān)標(biāo)簽