伊伊综合在线,国产伦乱精品,日本少妇一区二区

前段時間，谷歌母公司 Alphabet 市值突破 3 萬億美元，成為第四家市值達到這一門檻的公司。

如果時間倒回到兩年半以前，谷歌自己可能都沒有想到這一結(jié)果。當時，ChatGPT 帶來的沖擊讓外界開始質(zhì)疑谷歌能否守住營收，尤其是廣告營收。甚至還有人發(fā)出靈魂追問：谷歌會成為下一個諾基亞嗎？

然而，事實的發(fā)展出乎許多人意料 —— 谷歌不僅穩(wěn)住了廣告基本盤，還通過將生成式 AI 融入搜索和廣告投放，提升了用戶意圖理解和廣告匹配效率，讓廣告價值進一步放大。

在國內(nèi)，我們也看到了這種趨勢。上個月，快手發(fā)布了 Q2 財報。財報顯示，這一季度，快手線上營銷服務(wù)收入 198 億元，同比增長 12.8%。財報明確指出，大模型在投放出價、營銷推薦方面的應(yīng)用取得顯著進展。在營銷出價方面，快手優(yōu)化了生成式出價算法，運用強化學習和長期價值策略，提升了廣告轉(zhuǎn)化效果。在營銷推薦環(huán)節(jié)，快手利用大語言模型的內(nèi)容理解和推理能力，采用生成式方法篩選廣告，深入挖掘用戶行為與廣告轉(zhuǎn)化的關(guān)聯(lián)性，生成符合用戶興趣的廣告內(nèi)容，經(jīng)過排序優(yōu)化后顯著提高點擊率，推動營銷服務(wù)收入實現(xiàn)兩位數(shù)增長。這些信號表明，AI 技術(shù)正在從根本上驅(qū)動廣告行業(yè)的收入增長。

不過，從技術(shù)上來看，這不是一蹴而就的，相關(guān)技術(shù)在過去的幾年里經(jīng)歷了多次迭代。以實時競價（RTB）廣告系統(tǒng)中的「大規(guī)模廣告自動出價」問題為例，相關(guān)技術(shù)經(jīng)歷了經(jīng)典控制、規(guī)劃求解、強化學習、生成模型等數(shù)代演化，如今又迎來了「生成式強化學習」這一全新范式。

這一新范式由快手首次提出。其核心思想是「讓出價模型能多維思考」，更充分地利用歷史出價序列信息，從而做出更精準的決策。2025 年至今，這一范式已在快手廣告系統(tǒng)全面落地，在保持廣告主既定成本目標不劣化（成本達標不降）的前提下，為平臺實現(xiàn)了超過 3% 的廣告收入提升。

那么，這一效果是怎么實現(xiàn)的？在快手發(fā)布的幾篇論文中，我們可以找到答案。

廣告自動出價

在不確定中尋找最優(yōu)解

在深入探討快手的技術(shù)革新之前，我們有必要先對「廣告自動出價」有一個基本的理解，尤其是其核心邏輯與挑戰(zhàn)。

簡單來說，廣告自動出價，也被稱為智能出價，是使用算法，根據(jù)用戶廣告產(chǎn)生點擊或轉(zhuǎn)化的可能性自動為這些廣告設(shè)置出價。過程中無需手動更新，它會為用戶完成所有繁重的工作，以相當于或優(yōu)于現(xiàn)有效果目標的成本效益，推動實現(xiàn)更高的轉(zhuǎn)化量或轉(zhuǎn)化價值。

總結(jié)起來，相比于手動或人工出價，自動出價有三大優(yōu)勢

真正的實時出價
查詢一級的自適應(yīng)學習
豐富的用戶信號和跨信號分析

快手解密AI印鈔機,生成式強化學習出價,實現(xiàn)超過3%的廣告收入提升

實時出價系統(tǒng)示意圖

然而，要實現(xiàn)理想的自動出價卻非易事，而這就涉及到了廣告出價的核心挑戰(zhàn)

既要花錢，又要省著花：廣告主既需控制單日花費不超預(yù)算，又需盡可能降低每次轉(zhuǎn)化（如購買、下載等）的成本。
未來難以預(yù)測：系統(tǒng)無法預(yù)知即將到來的流量狀況和競爭對手行為，必須依據(jù)實時花費與成本等數(shù)據(jù)動態(tài)調(diào)整出價。
牽一發(fā)而動全身：每次出價會影響廣告展示與消耗，改變賬戶狀態(tài)（如剩余預(yù)算），進而影響后續(xù)出價，構(gòu)成連續(xù)而復(fù)雜的序列決策問題。

針對這些挑戰(zhàn)，業(yè)界提出了許多不同的解決方案并一直在不斷迭代，比如互聯(lián)網(wǎng)廣告行業(yè)龍頭谷歌廣告（Google Ads）使用了一種基于機器學習的自動出價系統(tǒng)，它可借助歷史轉(zhuǎn)化數(shù)據(jù)訓(xùn)練點擊率（CTR）、轉(zhuǎn)化率（CVR）等預(yù)測模型，結(jié)合拍賣時上下文信號（設(shè)備、地理位置、時段、瀏覽環(huán)境等），在每次競價中實時調(diào)整出價（使用了強化學習思想），以最大化廣告主的 ROI（如轉(zhuǎn)化次數(shù)、收入、ROAS）的目標。

而快手的出價算法此前也已經(jīng)經(jīng)歷了多輪迭代，整體可以總結(jié)為從 PID、MPC 到強化學習（RL）的「三代」演化路徑。若將這一過程比喻為汽車工業(yè)的發(fā)展：

第一代（PID）：包含了三個關(guān)鍵的控制參數(shù)：比例（Proportional）、積分（Integral）和微分（Derivative）。該算法可以通過動態(tài)調(diào)整出價來很好地將廣告平均成交價穩(wěn)定在目標成交價，但不足的點在于對未來消耗和預(yù)期消耗沒有預(yù)估和規(guī)劃。這就像是定速巡航。它只能根據(jù)當前速度和設(shè)定速度的差異來調(diào)整油門，反應(yīng)直接但比較「笨」，難以應(yīng)對復(fù)雜多變的競價環(huán)境。
第二代（MPC/Model Predictive Control）：引入了對未來的預(yù)測，在對出價與未來消耗、成本的關(guān)系進行建模的基礎(chǔ)上能夠做出更精準的出價規(guī)劃。不過，該算法建模能力較弱，也無法做出多步長期決策。這就像是更高級的自適應(yīng)巡航。通過預(yù)測未來短時間內(nèi)的路況以調(diào)整車速，但其建模相對簡單，易陷入局部最優(yōu)，本質(zhì)上難以實現(xiàn)效果的根本性突破。
第三代（強化學習）如同根據(jù)專家駕駛數(shù)據(jù)學習的 AI 駕駛員。通過分析海量歷史駕駛數(shù)據(jù)（離線數(shù)據(jù)集），學習在特定狀態(tài)下的最佳動作（出價），以最大化全程獎勵（廣告效果）。該方法安全性高（不直接影響線上業(yè)務(wù)），且能夠挖掘數(shù)據(jù)中蘊藏的更優(yōu)策略。

現(xiàn)如今，快手的出價算法已經(jīng)進化到了第四代：生成式強化學習

顧名思義，生成式強化學習是一種將當今大熱的生成式模型與強化學習技術(shù)融合起來的新方法。它彌補了之前的強化學習的一些突出短板。

簡單來說，之前的強化學習技術(shù)有點像「一維思考」，只根據(jù)單步狀態(tài)信息進行決策，對于出價狀態(tài)序列信息利用不夠充分。而生成模型（如 Transformer、Diffusion）特別擅長理解和生成有復(fù)雜模式的序列數(shù)據(jù)。反過來，生成模型本質(zhì)是模仿數(shù)據(jù)集的動作，高度依賴數(shù)據(jù)集質(zhì)量，難以優(yōu)化序列整體價值；而強化學習能夠?qū)W到超出數(shù)據(jù)集效果的策略，直接優(yōu)化序列整體價值，在原理上相比生成模型具有更高的收益空間。

這兩大范式互相增益，便造就了「生成式強化學習」，其能讓出價模型實現(xiàn)「多維思考」，從而更充分地利用歷史出價序列信息，從而做出更精準的決策。

雙劍合璧

詳解 GAVE 和 CBD 算法

將生成式模型的能力引入強化學習，無疑為廣告出價帶來了強大的新動能。但在實踐中，直接應(yīng)用生成模型建模出價策略，也會面臨其固有的挑戰(zhàn)。

此前，業(yè)界已經(jīng)探索了兩種使用生成模型的路徑：

Generative Model as a world model：建立一個可以模擬不同出價策略下廣告投放結(jié)果的「數(shù)字沙盒」，生成大量訓(xùn)練數(shù)據(jù)來增強模型學習。
Generative Models as policies：用生成模型直接建模強化出價策略，提升對于出價狀態(tài)序列信息的利用能力。

具體到技術(shù)框架上，業(yè)界采用的主流方法有兩類：

Decision Transformer (DT)：其機制類似于大語言模型中的「下一 token 預(yù)測」。模型會依據(jù)歷史狀態(tài)、調(diào)價動作與獎勵序列，預(yù)測能夠最大化序列整體價值的最佳出價動作。
擴散模型（Diffusion Model）：這一過程則猶如一位「AI 畫家」。模型基于已有狀態(tài)從噪聲中勾勒出理想的未來軌跡（如預(yù)期消耗、成本曲線），再逆向推導(dǎo)出當前應(yīng)當執(zhí)行的出價。

快手解密AI印鈔機,生成式強化學習出價,實現(xiàn)超過3%的廣告收入提升

快手解密AI印鈔機,生成式強化學習出價,實現(xiàn)超過3%的廣告收入提升

創(chuàng)作交流更多>>

新車測評更多>>

媒體學習更多>>

生態(tài)內(nèi)容更多>>

原創(chuàng)分享更多>>

寫作技巧更多>>