在推薦、廣告場(chǎng)景,如何利用好大模型的能力?這是個(gè)很有挑戰(zhàn)的命題。
背后主要有兩個(gè)核心難點(diǎn):
1)LLM 雖然具備豐富的世界知識(shí)和推理能力,但缺乏電商領(lǐng)域的專業(yè)知識(shí),在直接應(yīng)用中往往表現(xiàn)欠佳。
2)LLM 的交互方式多為文本,而直接將用戶歷史行為以文本格式描述會(huì)導(dǎo)致輸入信息冗長(zhǎng)、信息密度低等問(wèn)題,對(duì)建模和推理都造成了困擾。
為了解決以上問(wèn)題,阿里媽媽提出了一種世界知識(shí)大模型 URM,通過(guò)知識(shí)注入和信息對(duì)齊,讓 LLM 成為兼顧世界知識(shí)和電商知識(shí)的專家。相比于傳統(tǒng)的推薦模型,URM 通過(guò)對(duì)用戶興趣的全面理解,可實(shí)現(xiàn)基于推理認(rèn)知能力的用戶興趣推薦。
為了在低時(shí)延、高 QPS 要求的實(shí)際系統(tǒng)中上線應(yīng)用,阿里媽媽技術(shù)團(tuán)隊(duì)設(shè)計(jì)了一套面向用戶行為動(dòng)態(tài)捕捉的異步推理鏈路。
目前,URM 已經(jīng)在阿里媽媽展示廣告場(chǎng)景上線,在商家的投放效果和消費(fèi)者的購(gòu)物體驗(yàn)等指標(biāo)上均帶來(lái)了顯著提升。
以下面這個(gè)例子為例,一個(gè)對(duì)嵌入式家電、收納用品有過(guò)歷史行為的用戶,系統(tǒng)推測(cè)用戶在關(guān)注裝修且處于硬裝的早期階段,且根據(jù)點(diǎn)擊商品推斷用戶比較注重生活品質(zhì),因此推薦了一些全屋定制類產(chǎn)品以及高品質(zhì)的家電。
當(dāng)引導(dǎo)詞增加新年時(shí),推薦結(jié)果以兒童新年服裝為主,而傳統(tǒng)任務(wù)下系統(tǒng)會(huì)傾向于推薦用戶近期瀏覽較多的女式牛仔褲。
會(huì)議期間,淘天集團(tuán)的阿里媽媽共同主持一個(gè)計(jì)算廣告算法技術(shù)相關(guān)的 Tutorial(講座),內(nèi)容為介紹計(jì)算廣告領(lǐng)域的技術(shù)發(fā)展脈絡(luò),以及阿里媽媽在該領(lǐng)域的最新技術(shù)突破——
阿里媽媽 LMA2 廣告大模型系列中的 URM(Universal Recommendation Model)世界知識(shí)大模型,首次重磅亮相。
世界知識(shí)大模型 URM
個(gè)性化推薦在人們的日常生活中出現(xiàn)頻率越來(lái)越高。為了滿足用戶的多樣化需求,推薦系統(tǒng)中的任務(wù)定義也更加多元化,如多場(chǎng)景推薦、多目標(biāo)推薦、發(fā)現(xiàn)性推薦等等。
參考 LLM 在自然語(yǔ)言處理領(lǐng)域的巨大成功,阿里媽媽技術(shù)團(tuán)隊(duì)希望基于 LLM 構(gòu)建電商領(lǐng)域的世界知識(shí)大模型,使得它能同時(shí)具備 LLM 的世界知識(shí)和電商領(lǐng)域的專業(yè)知識(shí),且能夠輕松應(yīng)對(duì)上述全部任務(wù)。
基于此,阿里媽媽技術(shù)團(tuán)隊(duì)提出了世界知識(shí)大模型 Universal Recommendation Model(以下稱 URM),以預(yù)訓(xùn)練的 LLM 為基座,將多任務(wù)設(shè)計(jì)融入 Prompt 設(shè)計(jì)中,通過(guò) ID 表征的知識(shí)注入和電商領(lǐng)域的任務(wù)對(duì)齊,實(shí)現(xiàn)對(duì)用戶歷史興趣的理解和推理并最終推薦出符合用戶興趣的結(jié)果。
以下將從任務(wù)定義、整體架構(gòu)、離線實(shí)驗(yàn)三方面詳細(xì)展開(kāi)。
任務(wù)定義
參考 LLM 的訓(xùn)練范式,在 URM 中,阿里媽媽技術(shù)團(tuán)隊(duì)利用文本來(lái)定義不同的推薦任務(wù)。
考慮到推薦場(chǎng)景用戶行為的重要性和豐富性,為了充分刻畫用戶的歷史行為,避免商品標(biāo)題的冗長(zhǎng)和低密度,URM 將商品 ID 作為一種特殊的 token 注入文本描述,實(shí)現(xiàn)用戶行為序列的高效表達(dá)。
考慮到工業(yè)場(chǎng)景落地的效率,URM 直接生成商品 ID,同時(shí)在輸出結(jié)果中保留了文本,在對(duì)齊電商任務(wù)的同時(shí)保留 LLM 本身的知識(shí)。
為了保留 LLM 的預(yù)訓(xùn)練知識(shí),阿里媽媽技術(shù)團(tuán)隊(duì)保留多層 Transformer 結(jié)構(gòu)不變,對(duì)輸入層和輸出層的結(jié)構(gòu)進(jìn)行修改,如下圖所示。
輸入端,輸入序列由用戶行為中的商品 ID、任務(wù)提示中的文本 token 以及 [ UM ] 、 [ LM ] 等特定查詢符組成。商品 ID 通過(guò)分布式商品 Embedding 模塊映射為商品 Embedding,其他文本映射為 Token Embedding,商品 Embedding 或 Token Embedding 與 Postion Embedding 相加后輸入到 LLM 的主干網(wǎng)絡(luò)(對(duì)于使用 RoPE 的模型而言則不存在顯式的 Position Embedding)。
輸出端,為了避免產(chǎn)出推薦結(jié)果和推理文本相互干擾,阿里媽媽技術(shù)團(tuán)隊(duì)在輸入中增加了 [ UM ] 和 [ LM ] 2 種特殊字符來(lái)表示當(dāng)前應(yīng)該輸出用戶表征還是開(kāi)始生成文本。與 [ UM ] 符號(hào)對(duì)應(yīng)的輸出通過(guò)用戶建模頭 hUM 映射到用戶表示空間,用于候選商品的生成;與 [ LM ] 符號(hào)及其后續(xù)符號(hào)對(duì)應(yīng)的輸出通過(guò)語(yǔ)言模型頭 hLM 映射到文本空間,用于文本 token 的生成。
URM 架構(gòu)區(qū)別于傳統(tǒng) LLM 主要有 2 個(gè)模塊,1 是商品多模態(tài)融合的表征方式,2 是兼顧效果和效率的 Sequence-In-Set-Out 生成方式。
以下會(huì)分別介紹這兩部分。最后介紹 URM 的訓(xùn)練方式。
商品多模態(tài)融合表征。
在傳統(tǒng)推薦模型中,ID 表征是面向特定任務(wù)的數(shù)據(jù)分布學(xué)習(xí)的,代表了商品間的相似關(guān)系,壓縮了電商領(lǐng)域的協(xié)同信息。而 LLM 中通常采用文本、圖像等語(yǔ)義表征,描述內(nèi)容信息間的相似性。
為了提升 LLM 對(duì)電商信號(hào)的理解,同時(shí)保留 LLM 的知識(shí),表征層設(shè)計(jì)了 ID 表征和語(yǔ)義表征的融合模塊來(lái)表達(dá)商品,并通過(guò)可學(xué)習(xí) MLP 層實(shí)現(xiàn) ID 表征和文本、圖像等語(yǔ)義表征的對(duì)齊。
同時(shí),這套融合表征的設(shè)計(jì)具備較強(qiáng)的可擴(kuò)展性,如語(yǔ)義 ID 等 token 均可作為新增模態(tài)引入,來(lái)不斷強(qiáng)化商品的表達(dá)能力。
Seqence-In-Set-Out 生成方式
推薦的目標(biāo)是從一個(gè)千萬(wàn)級(jí)別的候選庫(kù)中找到曝光 / 點(diǎn)擊概率最大的 K 個(gè)商品,它和語(yǔ)言模型 LM 從十萬(wàn)規(guī)模的詞表空間中生成語(yǔ)言概率最大的 Token,是類似的問(wèn)題。
因此若不考慮計(jì)算成本,可以通過(guò)下述方式獲得結(jié)果:
在這種內(nèi)積計(jì)算的范式下,模型的表達(dá)能力相對(duì)受限,對(duì)用戶和商品的建模能力較差且推薦集合的多樣性也會(huì)較差,難以發(fā)揮大語(yǔ)言模型的優(yōu)勢(shì)。函數(shù)逼近理論的一個(gè)結(jié)論是,特征的多個(gè)內(nèi)積的線性組合可以逼近任意復(fù)雜的函數(shù)。因此通過(guò)增加 [ UM ] token 的數(shù)量使 URM 在一次前向過(guò)程中并行生成多個(gè)用戶表征 U=(U1,……,UH),最終用戶和商品之間的打分為
整體訓(xùn)練損失包括商品推薦任務(wù)損失和文本生成任務(wù)損失。
輸出序列表示為
在每個(gè)批次中,負(fù)樣本 N 是從商品候選中基于其出現(xiàn)頻率采樣得到的。
文本生成任務(wù)可以通過(guò)目標(biāo)文本序列的負(fù)對(duì)數(shù)似然來(lái)優(yōu)化:
最終的訓(xùn)練目標(biāo)是:
其中 η 是權(quán)衡超參數(shù)??紤]到 URM 對(duì) LLM 的輸入和輸出層進(jìn)行了顯著修改,阿里媽媽技術(shù)團(tuán)隊(duì)采用完整參數(shù)的有監(jiān)督微調(diào)(SFT),僅凍結(jié)商品的原始表征。
離線實(shí)驗(yàn)
URM 使用多任務(wù)融合數(shù)據(jù)集訓(xùn)練,并在生產(chǎn)數(shù)據(jù)集上取得了平均 11.0% 的 Recall 提升,在 6 個(gè)子任務(wù)(共 9 個(gè)任務(wù))中都超越了線上使用 Target-Attention 結(jié)構(gòu)的傳統(tǒng)推薦模型。
進(jìn)一步的消融實(shí)驗(yàn),驗(yàn)證了表征融合模塊的有效性,也驗(yàn)證了隨 UM token 數(shù)量上漲召回 Recall 呈顯著上漲。Figure6 驗(yàn)證了 URM 仍具有良好的文本理解能力和泛化能力,對(duì)已知的 query 文本和未知的 query 都有良好的推薦表現(xiàn)。
考慮到 LLM 的推理時(shí)延較長(zhǎng),無(wú)法滿足在線請(qǐng)求的時(shí)延約束,阿里媽媽技術(shù)團(tuán)隊(duì)建設(shè)了一套異步推理的大模型召回鏈路。
如下圖所示,在用戶有淘系行為時(shí)異步觸發(fā) URM 推理,并將結(jié)果做持久化存儲(chǔ),供在線召回階段讀取使用。
為了進(jìn)一步提升資源利用率,阿里媽媽技術(shù)團(tuán)隊(duì)實(shí)現(xiàn)了多 instance 在同一容器的部署,將 URM 推理的并發(fā) qps 提升 200%。
結(jié)語(yǔ)
本文主要介紹了阿里媽媽 LMA 2 廣告大模型系列中的世界知識(shí)大模型 URM 在建模和落地方面的思考和進(jìn)展。通過(guò)結(jié)合大模型的通用知識(shí)和電商領(lǐng)域的專家知識(shí),URM 能夠更加精準(zhǔn)地預(yù)測(cè)用戶的潛在興趣和購(gòu)物需求,為商家和消費(fèi)者提供更優(yōu)質(zhì)的服務(wù)。
更多 URM 的細(xì)節(jié)歡迎關(guān)注后續(xù) " 阿里媽媽技術(shù) " 的公眾號(hào)文章或參考論文。
論文鏈接:
https://arxiv.org/pdf/2502.03041
* 本文系量子位獲授權(quán)刊載,觀點(diǎn)僅為原作者所有。
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見(jiàn)