前段時間,谷歌母公司 Alphabet 市值突破 3 萬億美元,成為第四家市值達到這一門檻的公司。
如果時間倒回到兩年半以前,谷歌自己可能都沒有想到這一結(jié)果。當時,ChatGPT 帶來的沖擊讓外界開始質(zhì)疑谷歌能否守住營收,尤其是廣告營收。甚至還有人發(fā)出靈魂追問:谷歌會成為下一個諾基亞嗎?
然而,事實的發(fā)展出乎許多人意料 —— 谷歌不僅穩(wěn)住了廣告基本盤,還通過將生成式 AI 融入搜索和廣告投放,提升了用戶意圖理解和廣告匹配效率,讓廣告價值進一步放大。
在國內(nèi),我們也看到了這種趨勢。上個月,快手發(fā)布了 Q2 財報。財報顯示,這一季度,快手線上營銷服務(wù)收入 198 億元,同比增長 12.8%。財報明確指出,大模型在投放出價、營銷推薦方面的應(yīng)用取得顯著進展。在營銷出價方面,快手優(yōu)化了生成式出價算法,運用強化學習和長期價值策略,提升了廣告轉(zhuǎn)化效果。在營銷推薦環(huán)節(jié),快手利用大語言模型的內(nèi)容理解和推理能力,采用生成式方法篩選廣告,深入挖掘用戶行為與廣告轉(zhuǎn)化的關(guān)聯(lián)性,生成符合用戶興趣的廣告內(nèi)容,經(jīng)過排序優(yōu)化后顯著提高點擊率,推動營銷服務(wù)收入實現(xiàn)兩位數(shù)增長。這些信號表明,AI 技術(shù)正在從根本上驅(qū)動廣告行業(yè)的收入增長。
不過,從技術(shù)上來看,這不是一蹴而就的,相關(guān)技術(shù)在過去的幾年里經(jīng)歷了多次迭代。以 實時競價(RTB)廣告系統(tǒng)中的「大規(guī)模廣告自動出價」問題為例,相關(guān)技術(shù)經(jīng)歷了經(jīng)典控制、規(guī)劃求解、強化學習、生成模型等數(shù)代演化,如今又迎來了「生成式強化學習」這一全新范式。
這一新范式由快手首次提出。其核心思想是「讓出價模型能多維思考」,更充分地利用歷史出價序列信息,從而做出更精準的決策。2025 年至今,這一范式已在快手廣告系統(tǒng)全面落地,在保持廣告主既定成本目標不劣化(成本達標不降) 的前提下,為平臺實現(xiàn)了超過 3% 的廣告收入提升。
那么,這一效果是怎么實現(xiàn)的?在快手發(fā)布的幾篇論文中,我們可以找到答案。
廣告自動出價
在不確定中尋找最優(yōu)解
在深入探討快手的技術(shù)革新之前,我們有必要先對「廣告自動出價」有一個基本的理解,尤其是其核心邏輯與挑戰(zhàn)。
簡單來說,廣告自動出價,也被稱為智能出價,是使用算法,根據(jù)用戶廣告產(chǎn)生點擊或轉(zhuǎn)化的可能性自動為這些廣告設(shè)置出價。過程中無需手動更新,它會為用戶完成所有繁重的工作,以相當于或優(yōu)于現(xiàn)有效果目標的成本效益,推動實現(xiàn)更高的轉(zhuǎn)化量或轉(zhuǎn)化價值。
總結(jié)起來,相比于手動或人工出價,自動出價有三大優(yōu)勢
- 真正的實時出價
- 查詢一級的自適應(yīng)學習
- 豐富的用戶信號和跨信號分析

實時出價系統(tǒng)示意圖
然而,要實現(xiàn)理想的自動出價卻非易事,而這就涉及到了廣告出價的核心挑戰(zhàn)
- 既要花錢,又要省著花:廣告主既需控制單日花費不超預(yù)算,又需盡可能降低每次轉(zhuǎn)化(如購買、下載等)的成本。
- 未來難以預(yù)測:系統(tǒng)無法預(yù)知即將到來的流量狀況和競爭對手行為,必須依據(jù)實時花費與成本等數(shù)據(jù)動態(tài)調(diào)整出價。
- 牽一發(fā)而動全身:每次出價會影響廣告展示與消耗,改變賬戶狀態(tài)(如剩余預(yù)算),進而影響后續(xù)出價,構(gòu)成連續(xù)而復(fù)雜的序列決策問題。
針對這些挑戰(zhàn),業(yè)界提出了許多不同的解決方案并一直在不斷迭代,比如互聯(lián)網(wǎng)廣告行業(yè)龍頭谷歌廣告(Google Ads)使用了一種基于機器學習的自動出價系統(tǒng),它可借助歷史轉(zhuǎn)化數(shù)據(jù)訓(xùn)練點擊率(CTR)、轉(zhuǎn)化率(CVR)等預(yù)測模型,結(jié)合拍賣時上下文信號(設(shè)備、地理位置、時段、瀏覽環(huán)境等),在每次競價中實時調(diào)整出價(使用了強化學習思想),以最大化廣告主的 ROI(如轉(zhuǎn)化次數(shù)、收入、ROAS)的目標。
而快手的出價算法此前也已經(jīng)經(jīng)歷了多輪迭代,整體可以總結(jié)為從 PID、MPC 到強化學習(RL)的「三代」演化路徑。若將這一過程比喻為汽車工業(yè)的發(fā)展:
- 第一代(PID):包含了三個關(guān)鍵的控制參數(shù):比例(Proportional)、積分(Integral)和微分(Derivative)。該算法可以通過動態(tài)調(diào)整出價來很好地將廣告平均成交價穩(wěn)定在目標成交價,但不足的點在于對未來消耗和預(yù)期消耗沒有預(yù)估和規(guī)劃。這就像是定速巡航。它只能根據(jù)當前速度和設(shè)定速度的差異來調(diào)整油門,反應(yīng)直接但比較「笨」,難以應(yīng)對復(fù)雜多變的競價環(huán)境。
- 第二代(MPC/Model Predictive Control):引入了對未來的預(yù)測,在對出價與未來消耗、成本的關(guān)系進行建模的基礎(chǔ)上能夠做出更精準的出價規(guī)劃。不過,該算法建模能力較弱,也無法做出多步長期決策。這就像是更高級的自適應(yīng)巡航。通過預(yù)測未來短時間內(nèi)的路況以調(diào)整車速,但其建模相對簡單,易陷入局部最優(yōu),本質(zhì)上難以實現(xiàn)效果的根本性突破。
- 第三代(強化學習)如同根據(jù)專家駕駛數(shù)據(jù)學習的 AI 駕駛員。通過分析海量歷史駕駛數(shù)據(jù)(離線數(shù)據(jù)集),學習在特定狀態(tài)下的最佳動作(出價),以最大化全程獎勵(廣告效果)。該方法安全性高(不直接影響線上業(yè)務(wù)),且能夠挖掘數(shù)據(jù)中蘊藏的更優(yōu)策略。
現(xiàn)如今,快手的出價算法已經(jīng)進化到了第四代:生成式強化學習
顧名思義,生成式強化學習是一種將當今大熱的生成式模型與強化學習技術(shù)融合起來的新方法。它彌補了之前的強化學習的一些突出短板。
簡單來說,之前的強化學習技術(shù)有點像 「一維思考」,只根據(jù)單步狀態(tài)信息進行決策,對于出價狀態(tài)序列信息利用不夠充分。而生成模型(如 Transformer、Diffusion)特別擅長理解和生成有復(fù)雜模式的序列數(shù)據(jù)。反過來,生成模型本質(zhì)是模仿數(shù)據(jù)集的動作,高度依賴數(shù)據(jù)集質(zhì)量,難以優(yōu)化序列整體價值;而強化學習能夠?qū)W到超出數(shù)據(jù)集效果的策略,直接優(yōu)化序列整體價值,在原理上相比生成模型具有更高的收益空間。
這兩大范式互相增益,便造就了「生成式強化學習」,其能讓出價模型實現(xiàn)「多維思考」,從而更充分地利用歷史出價序列信息,從而做出更精準的決策。
雙劍合璧
詳解 GAVE 和 CBD 算法
將生成式模型的能力引入強化學習,無疑為廣告出價帶來了強大的新動能。但在實踐中,直接應(yīng)用生成模型建模出價策略,也會面臨其固有的挑戰(zhàn)。
此前,業(yè)界已經(jīng)探索了兩種使用生成模型的路徑:
- Generative Model as a world model:建立一個可以模擬不同出價策略下廣告投放結(jié)果的「數(shù)字沙盒」,生成大量訓(xùn)練數(shù)據(jù)來增強模型學習。
- Generative Models as policies:用生成模型直接建模強化出價策略,提升對于出價狀態(tài)序列信息的利用能力。
具體到技術(shù)框架上,業(yè)界采用的主流方法有兩類:
- Decision Transformer (DT):其機制類似于大語言模型中的「下一 token 預(yù)測」 。模型會依據(jù)歷史狀態(tài)、調(diào)價動作與獎勵序列,預(yù)測能夠最大化序列整體價值的最佳出價動作。
- 擴散模型(Diffusion Model):這一過程則猶如一位「AI 畫家」 。模型基于已有狀態(tài)從噪聲中勾勒出理想的未來軌跡(如預(yù)期消耗、成本曲線),再逆向推導(dǎo)出當前應(yīng)當執(zhí)行的出價。
