先從一個故事開始。
一個真實的,我們的鄰邦的故事。
我們都知道隔壁鄰居那邊鬧變種病毒的疫情很厲害。
但是相當(dāng)長一段時間,無論是疫苗還是醫(yī)療物資都是極端短缺的。
所以,那邊抵抗病毒,頗有些聽天由命的味道。
但是鄰居們不信命,或者說,他們相信比命更牛的東西,沒錯,就是信牛。
牛的尿,可能對植物的生長有益處,但是用于防治新冠,如同其口味一樣,真是一言難盡。
鄰居們卻相信來自牛的圣水,具有神奇的效果。
于是有一些人喝了牛尿,相信自己絕對不會染上新冠病毒。之后,他們確實也沒有感覺自己染上新冠病毒。
我們的友邦大眾于是紛紛效仿,相信自己終于有了防治新冠的可靠武器。
這樣的事情,講給任何一個智力正常的中國人,都只會哈哈一笑。但是,我們該怎么幫助他們說明牛尿毫無效果呢?
我們需要用科學(xué)的方法來證明。這個科學(xué)方法,并不是去化驗牛尿在人體內(nèi)殺滅新冠病毒的效果,而是認(rèn)認(rèn)真真做喝牛尿和不喝牛尿的抗病毒效果的比較。
我們需要讓兩組數(shù)量相等且足夠的人(假設(shè)每組都有2000人),生活在同一個暴露環(huán)境下,一組人天天喝牛尿,此外啥也不做,而另外一組人戴口罩、打中國疫苗。之后的幾個月內(nèi),記錄這些人罹患新冠肺炎的數(shù)量。
如果喝牛尿那一組的得病人數(shù)遠(yuǎn)遠(yuǎn)高于另外一組,并且不低于甚至遠(yuǎn)高于全國人的新冠肺炎感染率,那就說明喝牛尿什么卵用也沒有。
這就是類似于我們所說的A/B測試:為了搞清楚什么有效什么無效,把測試對象分成兩個或者若干個組,然后在同時暴露在其他變量都一樣的環(huán)境下,看看每組測試對象的變化是什么。
醫(yī)學(xué)上為了測試盡可能準(zhǔn)確不受任何因素甚至不受病人或醫(yī)生的心理暗示影響,往往會讓各組患者吃看起來完全沒有區(qū)別的藥品(只是部分測試組的藥品只含有安慰劑),連醫(yī)生都不知道哪組患者吃的是藥品,哪組吃的是安慰劑。
這也就是所謂的“雙盲”(患者和醫(yī)生都不知道)的測試。
A/B測試這個方法本來來源于醫(yī)學(xué)界,可是引入到互聯(lián)網(wǎng)世界中之后,卻大放異彩了起來!
很多時候,你都會覺得,自己的老板或者同事,為什么對一個錯誤的方法懷有執(zhí)念,就像喝牛尿的隔壁鄰居一樣,但還怎么都說服不了。
著急沒用,A/B測試有用!
1、A/B測試,或許跟你想的不一樣
A/B測試如此重要,但總聽到一些朋友說,A/B測試沒啥用。
對一個事情見仁見智很正常,不過我還是要說,A/B測試或許跟你想象的不一樣。
舉個例子,如果一個A/B測試的結(jié)果,表現(xiàn)出的是A和B的結(jié)果區(qū)別不大,無法在統(tǒng)計學(xué)意義上分辨出誰更好,你會怎么看待這一情況。
大部分人都會認(rèn)為,這個實驗沒有分出勝負(fù),所以A/B測試在這個實驗上沒有給出什么有用的信息。
但是,A/B測試不僅僅只是為了給你一個“你期望的答案”(事實上很多時候答案并不會你的期望,否則A/B測試也就沒有意義了),而是,給了你一個觀察在不同變量的情況下,人們的行為會發(fā)生何種相應(yīng)改變的機(jī)會,也給你了
你一個分析這些改變背后蘊(yùn)含著何種“道理”的機(jī)會。
比如,你在同一個app的兩個不同界面上,或者兩個不同頁面版本上的用戶行為,肯定是不同的。這些不同又可以通過用戶行為分析工具反映出來。也就是說,A/B測試給你的不只是結(jié)果,光看結(jié)果實在是太大材小用了,A/B測試給
了你非常好的洞察消費者意圖和行為邏輯的機(jī)會。基于這些洞察,你可以做出更好的C版本,然后基于A/BC三個版本,繼續(xù)進(jìn)行測試。
不過,A/B測試的能力還遠(yuǎn)遠(yuǎn)不止這些。或者說,只是分流人群做個比較,以及洞察消費者,仍然不是A/B測試的全部。今天的A/B測試有很多進(jìn)化,它也遠(yuǎn)遠(yuǎn)不只是一個分析工具,而是具有更多主動性的功能——所謂主動性,是
指A/B測試的很多功能能夠直接作用于營銷,在甚至不需要人的干預(yù)下提升營銷和運營的績效。
我們看看它都有哪些我們可能并不知曉的能耐。
測試推送
我們都知道推送消息(push notification)這個事情跟創(chuàng)意的文案關(guān)系非常大。
A/B測試當(dāng)然可以測試哪個文案效果(點開率)更好,就跟前面說的測試不同創(chuàng)意的CTR一樣,這似乎毫無再講的必要。
不盡然。
今天的A/B測試其實早已經(jīng)不是只測試一下哪個的點擊率好那么“幼稚”,A/B測試的工具,能夠作用于推送消息的后臺,在初步測試的基礎(chǔ)上,自動調(diào)整那個有更好點擊率的消息,讓它有更多的被人看到的可能。如果這個消息被
更多人看到后,它的點擊率仍然比另外的版本高,那么A/B測試工具能夠進(jìn)一步讓它有更多的“曝光”。
當(dāng)然,實際的調(diào)優(yōu)不是這么機(jī)械的。因為畢竟不同的消息特點不同,有的可能慢熱,一開始如果效果不好,那么它豈不是永遠(yuǎn)沒有“出頭之日”了。
實際在A/B測試中不斷調(diào)優(yōu)是在算法的控制下完成的。例如常用的貝葉斯決策樹,能夠在每個方案中都有多個變量的情況下找到最優(yōu)解。
這就是在A/B測試工具控制下的“賽馬”機(jī)制。
用在推送上的A/B測試,本質(zhì)上是“一邊推送、一邊測試、一邊優(yōu)化”,不斷自動化地提升推送的效率和最終打開的效果。A/B測試的實驗做完了,推送也完成了,并且?guī)缀蹩梢哉J(rèn)為是以最佳方式將推送完成的。
服務(wù)端編程實驗
推送的進(jìn)化只是小兒科,從服務(wù)端實現(xiàn)A/B測試,則是具有重大意義的根本性提升。
很多年前,在我剛剛接觸A/B測試的時候,A/B測試還只是在客戶端實現(xiàn)的。簡單講,就是人群的分流發(fā)生在客戶端,比如通過瀏覽器上的URL跳轉(zhuǎn),或是給不同的人發(fā)不同的APP版(或是在不同的時間發(fā)不同的版進(jìn)行測試)來實現(xiàn)。
客戶端A/B測試的缺點是,任何一個測試中的變化都要重新上線新的版本,工作量大、麻煩,而且無法實現(xiàn)基于實時測試結(jié)果的動態(tài)化的調(diào)優(yōu)。
服務(wù)端編程實驗,則完全改變這一狀況。所有的用戶拿到的都是同一個版本下的頁面或APP,不過,不同的隨機(jī)的用戶,看到的設(shè)計或內(nèi)容卻不同,并且所有的不同都可以通過程序(腳本)進(jìn)行控制。這種不同是在服務(wù)端直接針對
每個用戶提供的,是通過服務(wù)端編程實現(xiàn)的。
對于APP上的A/B測試,這種方式極為有用,這種方式不僅不需要用戶額外下載新的版本的APP,更可以隨時進(jìn)行動態(tài)調(diào)整,從而在APP上也能實現(xiàn)類似于上面推送測試時的智能化的動態(tài)調(diào)優(yōu)。
因此,服務(wù)端編程也大幅度降低了A/B測試的工作量,并讓A/B測試的進(jìn)行變得非常便捷,且無需打擾用戶。更重要的是,基于服務(wù)端的編程實驗,能夠進(jìn)行更為復(fù)雜的測試(實驗)設(shè)計,同樣的設(shè)計在客戶端上進(jìn)行的話,部署起
來就會非常復(fù)雜而不具可行性。
廣告投放RTA實驗
A/B測試另一個好玩的是廣告投放RTA的實驗。
我們都知道RTA廣告是基于廣告主自己一方數(shù)據(jù)的廣告投放方式。
投放的效果,實際上取決廣告主自己人群的圈選。
在這個場景下接入A/B測試,則是將動態(tài)調(diào)優(yōu)的方法,引入到RTA中。
在廣告主圈選出適合投放的人群之后,A/B測試會對每個人投放之后的結(jié)果進(jìn)行回收、比較,自動分析哪些人群和哪些創(chuàng)意具有更好的匹配關(guān)系,甚至是每個個體和創(chuàng)意的匹配關(guān)系,從而實時指導(dǎo)RTA的投放以更優(yōu)化的方式進(jìn)行。
事實上,這種基于A/B測試方法的智能化的流量調(diào)優(yōu)不僅僅在推送、RTA廣告等領(lǐng)域十分好用,在所有本質(zhì)上需要進(jìn)行推薦的場景下,都完全適用。
我很早以前就說過,互聯(lián)網(wǎng)這個傳統(tǒng)事物,進(jìn)化到今天的數(shù)字世界的一個核心特征,就是無處不在的推薦——因人而異、量體裁衣的推薦。而推薦的質(zhì)量高低,很大程度上決定了用戶體驗的好壞,以及商業(yè)轉(zhuǎn)化達(dá)成效率的高低。
所有的本質(zhì)上是推薦的場景,都適用于A/B測試的智能流量調(diào)優(yōu)。
灰度發(fā)布
A/B測試還可以用來做灰度發(fā)布。
因為A/B測試是可以非常好的控制被測試的人群的數(shù)量。如果有一個新版,要發(fā)布,我可以少部分人慢慢過渡,如果這些人感覺不錯,我再逐步放大到更大的人群。
2、A/B測試,科學(xué)性很重要!
如果你看了上面的內(nèi)容,對A/B測試感興趣,那么下面的內(nèi)容也同樣值得閱讀。
因為,用好A/B測試,了解上面的那些應(yīng)用場景還不足夠,畢竟再好的工具,也要科學(xué)使用,否則就無法發(fā)揮效力,甚至是產(chǎn)生反作用。
讓A/B測試能夠很有科學(xué)性地為我們所用,有如下要求。
第一,如果你要做出真正有結(jié)論的A/B測試,對樣本量是有要求的。顯然,樣本量越多越好。這里有一個告訴你如何計算A/B測試最小樣本量的工具:https://www.surveysystem.com/sscalc.htm。
第二,基于A/B測試的優(yōu)化,不要進(jìn)行大幅度的修改,而應(yīng)該是小步迭代,不斷測試。而不是一次測試兩個或者多個差異巨大的版本。
第三,很多的測試,并不會給你明確的誰更好的答案。因此,如同我前面所說的,勝負(fù)很多時候并不是A/B測試最重要的。分析用戶在不同環(huán)境下行為的不同,以及背后的機(jī)理,從而能夠更好地基于這些分析進(jìn)行優(yōu)化,才是更重要
的。
第四,用對工具!上面列舉的各種A/B測試的場景和能力,都必須基于好的工具才能實現(xiàn)。比如,服務(wù)端的編程實驗,只有支持這種方式的工具才能實現(xiàn)。目前大量的工具,還停留在很久以前的客戶端實現(xiàn)上。
而目前國內(nèi)對A/B測試的應(yīng)用集中在那些互聯(lián)網(wǎng)“大廠”中,并形成了自己的A/B測試的專用產(chǎn)品或體系,比如字節(jié)的Libra、美團(tuán)的Gemini、滴滴的阿波羅等。特別要提一下的是字節(jié)的Libra,這是目前第一個把自己的A/B產(chǎn)品
“拿給外面”用的產(chǎn)品。Libra平臺2016年誕生,在字節(jié)的各個產(chǎn)品、業(yè)務(wù)中經(jīng)過了不斷地使用、磨練和迭代,現(xiàn)在則通過字節(jié)旗下的to B品牌“火山引擎”對外開放,其能力包含上面我說的所有應(yīng)用場景。
A/B測試不僅是一個方法,更是一個企業(yè)的核心優(yōu)化策略
比如,爭論哪個素材更有效?A/B測試一下,讓這兩個素材同時跑在自己的廣告上,流量隨機(jī)平分給它們,隨后我們可以看到哪個CTR好,而且是一直好,那么大家的爭吵可以閉嘴了。
但A/B測試顯然不只是“讓爭吵閉嘴”這點作用。A/B測試的核心價值在于,它是一個將定性決策轉(zhuǎn)化為定量決策的重要方法。盡管將定性決策轉(zhuǎn)化為定量分析的方法有很多,但沒有任何一個方法有A/B測試這么直觀、科學(xué)、可信,
且易于操作。
國外有很多例子,說A/B測試怎么樣給企業(yè)帶來神奇的變化。
比如linkedin用A/B測試大幅度提升了Premium產(chǎn)品的轉(zhuǎn)化,并且將A/B測試作為其增長優(yōu)化的一個持續(xù)的、系統(tǒng)的工程。
又比如,谷歌一直將A/B測試作為其產(chǎn)品優(yōu)化的基本方法,不僅僅包括其UI的修改,也包括其產(chǎn)品算法的修改,甚至是新產(chǎn)品問世,都要先進(jìn)行大量的A/B測試。谷歌A/B測試有時候會進(jìn)一步上升復(fù)雜度為多變量測試(考慮到更多變
量都需要測試的情況)。
還比如,微軟的搜索引擎Bing,一直在任何UI微調(diào)上都堅持A/B測試。在一篇關(guān)于微軟Bing的優(yōu)化文章上說:Bing對于什么樣的文字顏色(加重顯示顏色)做了大量的測試,最終深藍(lán)和綠色的配合,要比單純的深藍(lán)或者綠色的文
字顯示更能引起用戶的點擊,這一組合要比其他顏色每年帶來更高的點擊收益,多達(dá)一千萬美元。
亞馬遜在購物流程的優(yōu)化上,全部應(yīng)用A/B測試作為核心優(yōu)化策略。小到一個按鈕的變化,大到一個流程的改變。例如,在用戶購物的過程中推銷自己的信用卡,需要回答究竟應(yīng)該將信用卡放在哪個購物環(huán)節(jié)進(jìn)行推銷合適的問題。
A/B測試的結(jié)論是:放在購物環(huán)節(jié)的越后端越好。
總之,并非當(dāng)大家對于什么樣的用戶交互會更好這樣的問題懸而未決的時候,才會想起A/B測試,A/B測試本身就是一個極佳的、必備的增長策略或優(yōu)化策略。
國內(nèi)的大廠,用A/B測試也是家常便飯。國內(nèi)最喜歡做A/B測試的是字節(jié)跳動。據(jù)說“今日頭條”和“抖音”這兩個名字就是參考了A/B測試的結(jié)果。張一鳴說,哪怕99.9%的把握覺得這是一個好名字,測一測又有什么神馬不可呢?
不僅如此,字節(jié)還專門給自己開發(fā)A/B測試工具,并且將A/B測試融入自己的企業(yè)文化。這家企業(yè)這么多年的快速發(fā)展,A/B測試功不可沒。
A/B測試為什么應(yīng)該是一個企業(yè)增長的核心優(yōu)化策略?簡單講,三個方面。
第一:將定性決策可信、直觀、科學(xué)的定量化。這個剛剛已經(jīng)說了。
第二:比任何推演分析、任何歸納或者演繹都要更能洞察消費者的意圖或需求。因為是真實的用戶,真實的環(huán)境,并且嚴(yán)格控制其他變量的干擾。
第三:實現(xiàn)難度較低,風(fēng)險可控,企業(yè)可以大范圍、多頻次地進(jìn)行。
或者,一句話也可以說明白:如果一個企業(yè)能夠保持做正確的事情,或是保持做出正確的選擇,那么這個企業(yè)沒有理由不增長,A/B測試就是保證我們能夠做正確的事情的核心武器,也是很多企業(yè)能夠持續(xù)增長背后的秘密之一!