在美國科技公司從事資料分析師與資料科學家的幾點差異

Henry Feng
Mar 10, 2024

去年十月底,我發布了一篇文章講述我在美國亞馬遜從資料分析師(Business Intelligence Engineer)轉換跑道成為資料科學家的文章。文章中分享了制式流程面的學習與掌握和一些心態上的轉變。在亞馬遜即將邁入第五年的當口,隨著時間遞移,我作為一個資料分析師的職涯已然凍結在過去,而我做為資料科學家的身分仍持續推進著。我也有幸透過不同的組別、不同的工作內容與專案,總結這兩個職位投射在我身上學習與成長,我也更清楚的觀察與體驗到這兩個職位在科技公司裡面一些根本上的差異。

雖然我在過去的文章中提及:職缺(Title)無法代表所有事情,端看職缺的表象可能跟真正所負責的項目與技能點會有出入 — — 像是是有些公司的「資料科學家」做的是分析報表的工作;有些公司的「分析師」可能打造成複雜的機器學習模型,最後其實都要深挖到工作描述與和人資與用人主管反覆釐清,才能真正知道項目與符合的技能需求。但仍然希望這篇文章可以給讀者一些更清晰的輪廓,以亞馬遜這樣規模較大、組織職缺較為明確規範的公司為範例,在這個資料從業人員的光譜上,將這兩個職缺揪出來,然後拉扯得遠一點,讓讀者可以看得更加清楚。

A. 產品:資料分析師與資料科學家是圍繞產品運轉的兩顆行星,或遠或近但都不可或缺

在科技公司裡,基本上所有的職位目標都是為了打造讓人愉悅跟解決使用者痛點的產品,分析師與資料科學家當然也是在這樣的目標上出一份力,而這兩者之於產品的關係和貢獻,我歸納出三個主要差異,彼此環環相扣。

Photo by Ronan Furuta on Unsplash

第一個差異:Product Supporting vs Product Owning

就我的經驗,在亞馬遜裡面,資料分析師多數的時候是作為一個產品支持的角色。我們會透過各種資料處理的工具箱,將資料清理、搬移、轉換、存儲、自動化與視覺化成產品經理與商業大組日常可以隨手可得的資訊,進而幫助產品經理可以產出洞見。也同時讓領導層可以規律定期的看到這個產品的健康狀況,包括清晰明瞭的趨勢、異常狀況與表現如何。

而資料科學家則會跟產品本身更貼近一點,因為多數我們做的研究分析與專案,是用資料作為工具,找到產品的後端與前端可以更加精進的部分:像是產品背後演算法的調整、產品前端使用者破碎體驗的修復、新功能的上線與測試等等。可以想像成我們擁有部分產品功能的成功與失敗。

第二個差異:落後指標(Output Metrics) vs 領先指標 (Input Metrics)

由於第一個差異(對於產品擁有權的不同),資料分析師與資料科學家關注的指標類型也有本質上的差異。由於分析師是要將領導層較為關係的數據做比較有質量與穩定的紀錄和呈現,所以其關心與抓取的往往是落後指標居多,像是收入成本相關的(Cost per Clicks、訂閱金流、簽單量等)、使用者相關的(日月活躍用戶、客戶流失率、瀏覽量等),而也是由分析師負責主要這些指標的追蹤和異常的回報,而他們也會是第一線接受到產品經理或是領導層對於數據的疑問,像是為什麼某某指標會上升下降等問題,然後要進行較潛層的偵錯與分析。

而資料科學家則不那麼需要關心落後指標,如同我在第一個差異中提及的,資料科學家志在改變產品的發展方向與軌跡,所以關注落後指標並沒有太大的意義,因為它們是較為「結果導向」的。科學家們熱衷於往指標們的上源前進,我們對於更細緻更可以改動的資料有較大的好奇心。例如我們會去探討Cost Per Clicks的訂價是否合理、它的演算法是甚麼、有沒有收費上不公平或是可以更合理的地方;我們會觀察客戶流失率之前每個不同客戶群體在哪些用戶旅程有不滿意的地方導致他們不再回來,跟他們或許在旅程中留下哪些足跡讓我們有機會再讓他們重新愛上我們的產品。資料科學家關注於可以透過一些專案或是實驗可以撬動改變的部分,而那些部分往往是透過領先指標進行量化的。

第三個差異:產品藍圖的涉入程度 — 獨立vs深入互動

在產品這個母題下,我歸納的最後一個差異就是產品藍圖的涉入程度。其實也是包裹了第一與第二差異。科技公司的每一個產品組每一年都會針對產品的未來發展討論其發展規劃和發展,而通常在這個時節,資料科學家會相較於資料分析師有更多的話語權建議產品經理的決策方向,這也和我們日常的工作較為息息相關。科學家做了很多產品前後端的深挖,對於領先指標有較深刻的學習了解,所以會有較多的實際經驗建議優化產品的哪部分,可以帶來更多的影響力(透過改變領先指標,正面影響落後指標)。

B. 工具與其他職缺的交互:必先利其器完後,還是要透過團隊合作Get Things Done

這部分簡而言之就是這兩個職缺需要點上哪種硬技能與軟技能了!將「工作」無限簡化後,無非就是做為公司裡的此角色,在嫻熟一些技能讓你可以完成分內工作之外,還要將你的工作產出透過與其他人員的合作,產出結果。以下就來講講分析師與科學家使用工具與合作對象的差異吧!

第四個差異:資料處理工具vs分析建模工具

資料分析師如同我在產品段落裡面所說的,多數時候是處理資料的萃取、轉化與匯入(即是大家常聽到的ETL),因此最常使用的工具是圍繞著資料庫的工具箱,像是SQL、一些雲端運算的工具(AWS裡面的Redshift、S3、Airflow)、還有資料呈現的視覺化工具(Excel、Tableau、Quicksight)等等。而這也是資料分析師最常被考察的幾個面向。

而資料科學家,資料取得則變成最基本的訴求了!同時由於領先指標往往的存儲更大,可能會需要一些大數據處理的工具像是Pyspark、Hive等等。而拿到資料後,也需最更細緻的分析,所以Python是必備,用來清理資料和進行一些敘述統計的歸納,有時候甚至會需要用到一些機器學習的建模Library,找出不同的演算法的最優解去解決產品問題、開發新的功能等。

第五個差異:合作對象大不同 — 資料工程師vs軟體工程師

由於資料分析師時常與整個資料Pipeline為伍,並且是以取得品質好且穩定的資料流為目標,我們最常合作的對象即是資料工程師(Data Engineer),資料工程師負責的是處理好整個資料底層的架構和基礎建設,即是資料的最上游,包含存儲技術的選擇、怎麼讓每個資料庫、資料湖都能有效率沒有遞延性的運作,而資料分析師也因此需要具備一些資料工程的知識,我們作為資料工程師的客戶與利益關係人,因為我們最了解數據指標,也時常提供建議並且和資料工程師一起打造新的資料源。

資料科學家則是跟軟體工程師合作更加密切。我們提出對於產品優化的建議,不管是前後端,都會需要軟體工程師幫助我們達成,簡而言之,由於在亞馬遜裡面,並沒有對於資料科學家有會「Production」的要求,負責上線產品功能,讓新的產品功能被使用者流暢使用的重責大任則落在工程師手上。在我這兩年轉換成科學家的旅途上,也是無形中被賦予得要去更了解系統的任務,如果可以在設計產品資料科學解方的同時,也去思考整個產品背後的系統架構能不能實現、能如何被實現,知道系統的可與不可(限制)等等,會讓整個分析與產出結果的過程更加務實也更容易有影響力。

C. 淺聊心態:在不同的位子,還是得要換換腦袋

最後一個區塊,來淺淺談一下這兩個職位在之於產品關係和軟硬技能外的心態準備。主要是圍繞我們做為企業打工人的朋友與敵人:「時間」來作探討。

第六個差異:對於「長期主義」的實踐差異

亞馬遜是一個信奉長期主義的公司,我們鮮少因為追求短期的利潤而犧牲更長遠的原則與發展,基本上還是有一套哲學在做短期與長期的取捨,像是永遠以客戶為尊即是一個好例子。

資料分析師的長期主義建構在哪一部分呢?我的歸納是在任何產品資料支援專案與日常的資料需求實踐之際,分析師都會去思考如何可以盡可能的恆常穩定的獲取且呈現這個資料。我們會花很多時間去設計與確保每一個資料的流動(Pipeline)起碼可以運行一段不短的時間,即使在未來某一個時點要進行修改,也會花費最小的力氣。這也是對於分析師時間一種基本尊重。因為分析師有太多日月季報表需要管理,而很多對於產品落後指標的問題也是說來就來,如果沒有把資料Pipeline最長期主義的管理與建構,分析師一定會因為與時間賽跑和過多需求的傾軋下而崩潰的。因此每個SQL Query怎麼樣撰寫可以有比較好的效率和可擴展性、Excel表格的函式邏輯是否清楚並且可以被輕易拖拉而不壞掉,都是資料分析師在行事上對於長期主義的一些體現。

而資料科學家的長期主義相較寬鬆,或者可以說會把長期主義的考量放在整個專案時程較後面的位置,原因也是跟前面幾個差異環環相扣。我們多數的專案會盡可能的邁入系統深處去觀察和分析系統可以被優化的部分,而很多時候我們與更細緻且繁複的領先指標為伍,可以想像一天的資料量可以就是百萬行起跳的,所以在進行資料的查詢與獲取時,往往得用不同的方法(大多都是粗暴且沒有邏輯的)各種試錯,才能取得一小部分真正想要分析的數據,再進行假設的驗證。唯有將這些假設驗證完成後,我們才會開始去想,如果這是真正有潛在影響力的改動與優化,我們才會拉入更長期(可能從一小時變成一天甚至一個禮拜)的資料進入Production的流程裡面。另外,做實驗也是一個將長期主義置後的選擇,有些時候是先用線下的實驗或是小規模的線上實驗驗證完一些假設後,才會開展大規模的產品改動。

小結

以上六點就是我在亞馬遜分析師與科學家行走的光譜上歸納的幾個差異。如同我一開始所言,這完全是經驗主義主導的觀察,可能不適用於所有的公司與產業,但仍然希望如果讀者也是作為一個資料從業者,可以透過以上的分野,琢磨你所負責的產品、你擁有的工具箱和你現在的心態上大概是在哪個位置,進而看得更加澄澈,在資料分析與資料科學的職涯上一起走得更遠更遠。

廣告時間

我的三月公開課熱烈報名中,如果對於打造履歷、練習科技公司面試和準備SQL面試評估有興趣,歡迎點擊下方連結參考報名!

--

--

Henry Feng

Sr. Data Scientist | UMN MSBA | Medium List: https://pse.is/SGEXZ | 諮詢服務: https://tinyurl.com/3h3uhmk7 | Podcast: 商業分析眨眨眼