建立中游知識(shí)圖來支撐企業(yè)主權(quán)式AI
1 前言
在上一期里,介紹了<三層KG架構(gòu)>的設(shè)計(jì)流程。在本文里,將介紹這種新潮KG(Knowledge Graph)架構(gòu)的重要用途之一,就是:基于本地行業(yè)自主性KG數(shù)據(jù),展開訓(xùn)練中游GNN模型,來支持下游企業(yè)建立可信、可控、可更新的主權(quán)式AI系統(tǒng)。
大家都知道,如今,GenAI逐漸變成知識(shí)整合與創(chuàng)新推理的工具,而非黑箱結(jié)果輸出的機(jī)器而已。于是,我們可以透過 <KG+GNN+CF+LLM>的整合架構(gòu)設(shè)計(jì),推導(dǎo)出高效的主權(quán)AI實(shí)踐流程。其包含大語(yǔ)言模型(LLM)協(xié)助構(gòu)建KG、并訓(xùn)練GNN推理潛在知識(shí)與反事實(shí)鏈接(Counterfactual Link, 簡(jiǎn)稱:CF_Link), 經(jīng)由人類進(jìn)行創(chuàng)新決策后回饋知識(shí)圖,最終結(jié)合RAG與LLM完成可信、可控、可更新的主權(quán)AI系統(tǒng)。
2 復(fù)習(xí):三層KG架構(gòu)設(shè)計(jì)
由于LLM非萬能,而企業(yè)KG卻是可信知識(shí)核心。采用<低監(jiān)督/少標(biāo)注/高彈性>的實(shí)踐策略,其可擴(kuò)展性與低成本優(yōu)勢(shì),非常契合主權(quán)AI的自主性與本地性目標(biāo)。在主權(quán)AI的知識(shí)圖譜(KG)建構(gòu)過程中,專家知識(shí)不是輔助,而是設(shè)計(jì)師。他們決定哪些知識(shí)能形成語(yǔ)意路徑,哪些節(jié)點(diǎn)之間存在潛在可推理的因果鏈。例如,三層KG架構(gòu)的特質(zhì)如下:
● KG分為<上游-中游-下游>三階段金字塔結(jié)構(gòu),彼此分工清晰又互補(bǔ),為L(zhǎng)LM、GNN與人類決策提供堅(jiān)實(shí)的知識(shí)支撐。
● 上游通用性KG:善用開源的行業(yè)性知識(shí),避免從零建構(gòu),減少80%中下游KG開發(fā)成本。
● 中游特定領(lǐng)域性KG:結(jié)合企業(yè)內(nèi)部數(shù)據(jù),融合文化、地區(qū)與組織習(xí)慣的知識(shí)模式。捕捉真實(shí)商業(yè)語(yǔ)境,為GNN提供語(yǔ)意嵌入訓(xùn)練基礎(chǔ)。
● 下游任務(wù)型應(yīng)用KG:支持多樣化AI應(yīng)用任務(wù)(推薦、風(fēng)險(xiǎn)評(píng)估),增加營(yíng)收(交叉推薦)、降低決策風(fēng)險(xiǎn)。
3 建立行業(yè)中游KG:以乳癌領(lǐng)域?yàn)槔?/strong>
3.1 選擇上游通用性大KG
本案例的緣由是:因?yàn)樵卺t(yī)療領(lǐng)域的開源、開放DRKG( Drug repurposing knowledge graph, 中文譯:藥物再利用知識(shí)圖譜),其支持下游的精準(zhǔn)醫(yī)療AI任務(wù)上,表現(xiàn)非常亮麗。
同時(shí),人們也從生物知識(shí)庫(kù)中整合了以疾病和基因?yàn)橹行牡亩喾N關(guān)系,開發(fā)了一個(gè)使用交互張量分解來識(shí)別疾病基因關(guān)聯(lián)的通用性大KG完成模型,稱為:KDGene。其透過感知相關(guān)知識(shí),模型能夠?qū)W習(xí)到不同關(guān)系的內(nèi)涵,賦予生物實(shí)體和關(guān)系更全面、更精確的表示,有利于疾病基因預(yù)測(cè)。如下圖1所示:
圖1 選擇適當(dāng)?shù)纳嫌未驥G
這些上游大KG的預(yù)訓(xùn)練知識(shí),能有效節(jié)省中、下游模型的訓(xùn)練速度和成本。
3.2 建立中游領(lǐng)域性KG
本案例是針對(duì)<乳腺癌癥>領(lǐng)域,使用神櫻AI團(tuán)隊(duì)自己開發(fā)的SAK-Builer工具,建立了中游領(lǐng)域性KG,取名為:MutationKG。其架構(gòu)如下圖2所示:
圖2 建立中游KG
3.3 訓(xùn)練<主權(quán)式>中游領(lǐng)域性GNN模型
在訓(xùn)練時(shí),首先從上游DRKG里讀取藥物實(shí)體的嵌入向量(Embeddings), 成為這中游MutationKG的< 藥物> 節(jié)點(diǎn)的起始特征(Initial Features)。同時(shí),也從上游KDGene里讀取基因?qū)嶓w的嵌入向量(Embeddings),成為這中游MutationKG的< 基因>節(jié)點(diǎn)的起始特征。然后,搭配本地機(jī)構(gòu)自主性癌癥及其類型數(shù)據(jù),展開訓(xùn)練中游GNN模型,如下圖3所示:
圖3 訓(xùn)練出自主的中游KG
此時(shí),訓(xùn)練1000回合之后,繼續(xù)加碼訓(xùn)練25 回合,就完成了。
于是,已成功訓(xùn)練出一個(gè)能夠把突變數(shù)據(jù)轉(zhuǎn)換成嵌入向量的GNN模型,而且嵌入已儲(chǔ)存于mutation_embeddings_gin.csv檔案里,可供后續(xù)下游任務(wù)使用(如分類、群聚、可視化、或與影像特征融合等)。
3.4 支撐<主權(quán)式>下游應(yīng)用型<KG+GNN>模型
這項(xiàng)下游任務(wù)結(jié)合了醫(yī)學(xué)影像特征(Ultrasound/MRI)進(jìn)行多模態(tài)推論,也將GNN輸出的嵌入與CNN影像特征進(jìn)行融合,提供AI輔助診斷(如預(yù)測(cè)、分類等)。
如下圖4所示:
圖4 支撐下游主權(quán)AI開發(fā)
關(guān)于超音波影像中的疑似的腫瘤評(píng)估,定義于美國(guó)放射學(xué)會(huì)所制定BI-RADS的描述項(xiàng)目及描述特征。BIRADS是指美國(guó)放射學(xué)會(huì)(ACR)的乳腺影像報(bào)告和數(shù)據(jù)系統(tǒng)(Breast Imaging Reporting and Data System) 的縮寫。BI-RADS分級(jí)標(biāo)準(zhǔn)被廣泛應(yīng)用于乳腺的各種影像學(xué)檢查,如乳腺鉬靶X線攝影、彩超、核磁共振,是用來評(píng)價(jià)乳腺病變良惡性程度的一種評(píng)估分類法。
4 邁向決策式主權(quán)AI
反事實(shí)推理(Counterfactual Inference)與KG的結(jié)合愈來愈重要。基于KG+GNN的應(yīng)用:包括社交網(wǎng)絡(luò)分析、醫(yī)療知識(shí)圖譜、推薦系統(tǒng)等,反事實(shí)推理能夠幫助人們理解和分析圖結(jié)構(gòu)中的因果關(guān)系。例如,本案例的決策式AI可以提供治療建議:「如果采用另一種治療方案,病情可能會(huì)如何發(fā)展?」。利用反事實(shí)分析來理解不同治療方案的潛在效果,進(jìn)行個(gè)性化的治療決策支持。
在這三層KG體系的支持下,決策式AI發(fā)揮反事實(shí)推理能力。例如思考:如果刪除一個(gè)可能的疾病節(jié)點(diǎn),診斷預(yù)測(cè)結(jié)果會(huì)如何變化?使用反事實(shí)分析來進(jìn)行因果推理,找出可能的誤診或未被考慮的疾病。本文提出一套融合大型語(yǔ)言模型(LLM)與知識(shí)圖譜(KG)的實(shí)踐方案,作為企業(yè)或產(chǎn)業(yè)建立主權(quán)AI 核心的關(guān)鍵基礎(chǔ)架構(gòu)。
5 結(jié)語(yǔ)
企業(yè)要打造可信、可控、可更新的主權(quán)AI,不靠黑箱,而是靠自己建構(gòu)知識(shí)圖譜(KG),結(jié)合圖神經(jīng)網(wǎng)絡(luò)(GNN)與大型語(yǔ)言模型(LLM)。透過三層KG架構(gòu)(上游、中游、下游),企業(yè)能融合內(nèi)部數(shù)據(jù)與行業(yè)知識(shí),推動(dòng)智能推理與反事實(shí)分析,建立真正屬于自己的主權(quán)式AI系統(tǒng)。
(本文來源于《EEPW》202505)
評(píng)論