2021-03-04 分類: 網(wǎng)站建設(shè)
我們最近在Reddit上做了問(wèn)答活動(dòng)。有個(gè)最常見(jiàn)的問(wèn)題是數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師之間的區(qū)別。因此,我們想在這個(gè)主題上下寫一篇文章來(lái)深入探討下這個(gè)話題。
有許多數(shù)據(jù)專家的崗位聽(tīng)起來(lái)沒(méi)多大區(qū)別,使用的工具也很類似,我們很難知道各類職位應(yīng)該承擔(dān)什么樣的職責(zé)。此外,較小的公司可能會(huì)受限于他們聘請(qǐng)的數(shù)據(jù)工程師或數(shù)據(jù)科學(xué)家的人數(shù),這便意味著很多時(shí)候特定的任務(wù)和目標(biāo)可能會(huì)開(kāi)始混合。
上述使得明確區(qū)分這兩個(gè)角色變得更加困難。因此,我們想通過(guò)討論數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家所擁有的不同目標(biāo),思維模式,工具和背景來(lái)了解兩個(gè)職位的不同之處。
在我們討論差異之前,我們想做一個(gè)快速的引言。事實(shí)是,許多數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師將執(zhí)行其他技術(shù)角色的任務(wù)。數(shù)據(jù)科學(xué)家可能需要開(kāi)發(fā)ETL,數(shù)據(jù)工程師可能需要開(kāi)發(fā)API和前端。因此,我們?cè)谙旅嬷赋龅膮^(qū)別只是為了弄清楚技術(shù)差異在哪里。
目標(biāo)
數(shù)據(jù)工程師的目標(biāo)更側(cè)重于任務(wù)和開(kāi)發(fā)。數(shù)據(jù)工程師構(gòu)建自動(dòng)化系統(tǒng)和模型數(shù)據(jù)結(jié)構(gòu),以允許有效地處理數(shù)據(jù)。這意味著數(shù)據(jù)工程師的目標(biāo)是創(chuàng)建和開(kāi)發(fā)表格和數(shù)據(jù)管道,以支持分析儀表板和其他數(shù)據(jù)客戶(如數(shù)據(jù)科學(xué)家、分析師和其他工程師)。它與大多數(shù)工程師相似。為了能夠執(zhí)行最終的任務(wù),需要進(jìn)行大量的設(shè)計(jì)、假設(shè)、限制和開(kāi)發(fā)。每個(gè)設(shè)計(jì)和解決方案都有自己的一組限制,即使它們都可以執(zhí)行最終任務(wù)。
相比之下,數(shù)據(jù)科學(xué)家往往更關(guān)注問(wèn)題。從這個(gè)意義上說(shuō),他們正在尋找降低成本/增加利潤(rùn)、改善客戶體驗(yàn)或業(yè)務(wù)效率的方法。這意味著他們需要問(wèn)問(wèn)題,然后回答問(wèn)題(問(wèn)問(wèn)題,假設(shè),然后得出結(jié)論)。所以他們需要問(wèn)的問(wèn)題比如,什么影響了病人的再入院,如果增加A vs. B,顧客會(huì)花更多錢嗎,有沒(méi)有更快的遞送包裹的路線?跳過(guò)剩下的過(guò)程。這里的目標(biāo)是找到問(wèn)題的答案。這可能是一個(gè)最終的結(jié)論或更多的問(wèn)題。在整個(gè)過(guò)程中,數(shù)據(jù)科學(xué)家分析、收集支持,并可以得出問(wèn)題的結(jié)論。
工具
這就是事情會(huì)變得混亂的地方。數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師通常都依賴于python和SQL。然而,這兩個(gè)技術(shù)角色使用這些技能的方式各不相同。同樣,這與心態(tài)的差異有關(guān)。Python是一種非常健壯的語(yǔ)言,它具有幫助管理操作任務(wù)和分析任務(wù)的庫(kù)。
數(shù)據(jù)科學(xué)家將使用panda和Scikit Learn這樣的庫(kù),而數(shù)據(jù)工程師將使用python來(lái)管理管道。這就是像airflow和Luigi這樣的圖書(shū)館派上用場(chǎng)的地方。
類似地,數(shù)據(jù)科學(xué)家查詢將是特別關(guān)注的(例如,關(guān)注問(wèn)題)。而數(shù)據(jù)工程師的查詢將集中于清理和轉(zhuǎn)換數(shù)據(jù)。
現(xiàn)在,數(shù)據(jù)專家還可以使用其他工具。這包括Tableau, Jupyter筆記本和其他一些。說(shuō)到底,區(qū)別在于他們?nèi)绾问褂盟鼈儭?/p>
背景
現(xiàn)在,當(dāng)談到數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家之間的差異時(shí),另一個(gè)常見(jiàn)的問(wèn)題是需要什么樣的背景。
數(shù)據(jù)工程和數(shù)據(jù)科學(xué)都需要對(duì)數(shù)據(jù)和編程有一定的了解。即使是有限的范圍。然而,有一些區(qū)別超出了編程。特別是數(shù)據(jù)科學(xué)家。由于數(shù)據(jù)科學(xué)家更像研究人員,擁有以研究為基礎(chǔ)的背景是一種優(yōu)勢(shì)。
這可能是在經(jīng)濟(jì)學(xué)、心理學(xué)、流行病學(xué)等領(lǐng)域。將研究背景、SQL、Python和良好的商業(yè)意識(shí)結(jié)合起來(lái),您就擁有了一位數(shù)據(jù)科學(xué)家。這些并不是一成不變的。事實(shí)上,我們遇到了一位獲得多個(gè)學(xué)位的的數(shù)據(jù)科學(xué)家。大多數(shù)雇主更傾向于雇傭至少擁有碩士學(xué)位的數(shù)據(jù)科學(xué)家,他的專業(yè)是技術(shù)或數(shù)學(xué)。
數(shù)據(jù)工程職位通常不需要碩士學(xué)位。數(shù)據(jù)工程更多的是作為一名開(kāi)發(fā)人員。這需要更多的實(shí)踐經(jīng)驗(yàn),而不是理論知識(shí)。所以獲得碩士學(xué)位并不能提供相同的價(jià)值。
一個(gè)例子
假設(shè)一家醫(yī)療保健公司的董事決定,他們想要弄清楚如何減少30天前再次入院的病人數(shù)量。從數(shù)據(jù)的角度來(lái)看,需要做幾件事。
數(shù)據(jù)科學(xué)家需要弄清楚是什么驅(qū)使病人重新入院。這是他們將試圖回答的問(wèn)題。根據(jù)他們得出的結(jié)論,他們將與業(yè)務(wù)部門合作,制定度量指標(biāo) 。這些指標(biāo)是如何創(chuàng)建將由數(shù)據(jù)科學(xué)家得到答案。
數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師有很多不同之處。他們有不同的目標(biāo)和背景,但這就是兩者共同利用的價(jià)值所在。數(shù)據(jù)工程師更多地關(guān)注工程健壯系統(tǒng),這一事實(shí)使得數(shù)據(jù)科學(xué)家能夠輕松地查詢數(shù)據(jù)并有效地分析數(shù)據(jù)。他們的合作伙伴關(guān)系使公司從數(shù)據(jù)中獲得價(jià)值。
分享題目:數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家有什么不同
文章源于:http://jinyejixie.com/news0/104150.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機(jī)、網(wǎng)站內(nèi)鏈、網(wǎng)站設(shè)計(jì)、App設(shè)計(jì)、建站公司、服務(wù)器托管
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容