Justin B. DickersonData Science Leader @ Rocket Data Labs

Full Stack Data Scientist nie istnieje

O tym, dlaczego stanowisko Full Stack Data Scientist jest kłamstwem i czemu analitycy nie powinni robić wszystkiego jednocześnie.

29.04.20195 min

Nietechnicznie o IT Rozwój i Kariera

Jeśli nie dobiłeś jeszcze do trzydziestki, to możesz być zaskoczony, gdy Ci powiem, że świat analityki nie był kiedyś tak szalony, jak dziś. Wszyscy siedzieliśmy w Excelu i kombinowaliśmy, jak przechytrzyć się nawzajem, wynajdując wyjątkowe okazje, by przesyłać nasze odkrycia do kierownictwa, by docelowo poprawić wyniki firmy. A ci z nas, których pomysły wygenerowały jakieś korzyści, byli nagradzani materialnymi rzeczami, takimi jak podwyżka, promocja, a może nawet akcje lub większa premia roczna.

W dawnych czasach linie między naszymi zadaniami były bardzo dobrze zdefiniowane. Może się to wydać szokujące, ale programiści wykorzystywali swoje umiejętności głównie do budowania oprogramowania (zazwyczaj wewnętrznego). Miało to miejsce jeszcze przed powszechnym korzystaniem z internetowych aplikacji konsumenckich. Statystycy byli na ogół odmianami częstymi i spędzali więcej czasu, próbując zrozumieć zjawiska, niż przewidując przyszłość (owszem, były kiedyś czasy, kiedy statystyki były używane do badania stanu rzeczy, zamiast przewidywać trendy). Potem pojawili się analitycy biznesowi, którzy używali swoich rodzących się umiejętności technicznych w dziedzinie finansów, księgowości, zarządzania bazami danych (korzystaliśmy nawet z SQL-a!) i pół-statystyki, by skupić się na jednym celu: jak rozwiązać różnice operacyjne i poprawić wydajność firmy. Należy zwrócić uwagę, że analitycy biznesowi byli prekursorami analityków danych.

Pierwsi Data Scientist

W tamtych czasach nie potrzeba było Leona Briemana i jego sygnowanych narzędzi, by być skutecznym analitykiem biznesowym czy analitykiem danych. Jedynymi ludźmi, którym zależało na jakichkolwiek drzewach czy lasach, byli ludzie pracujący dla lasów państwowych. Z czasem jednak te dwie rzeczy całkowicie zmieniły krajobraz analityczny; przetwarzanie rozproszone i rozpowszechnianie oprogramowania typu open source.

Dla mnie nadejście obliczeń rozproszonych jest jednym z najbardziej ekscytujących i potężnych wydarzeń, jakie miały miejsce w analityce. Nagle konieczność próbkowania ze względów wydajnościowych stała się przeszłością. Siła takich obliczeń pozwoliła nam efektywnie przetwarzać wszystkie związane z drzewem rzeczy i umożliwiła szerokie zastosowanie uczenia maszynowego, które szybko przeniosło się z sal akademickich wprost na ekran komputera zwykłej “pszczółki robotnicy”.

Nie będąc już wyłączonym z gry analitycznej przez drogie oprogramowanie, takie jak SAS (które do dzisiaj jest niewyobrażalnie drogie), programiści mogli w końcu rzucić okiem na to, co znajduje się po drugiej stronie ściany danych. Analitycy biznesowi zarabiali więcej niż programiści, ponieważ mieli możliwość prowadzić rozmowy z korporacyjnym zespołem wykonawczym i pokazywać efekty swoich działań bezpośrednio na rachunku zysków i strat. Jednak z większą wiedzą techniczną niż analitycy biznesowi, programiści zaczęli wykorzystywać technologię open source, aby zwiększyć swoją pozycję w grze analitycznej i przekształcić się w analityków biznesowych lub analityków danych. Dzisiaj nazywamy takiego specjalistę Data Scientist.

Jednorożce

Jak pisałem obszernie w ciągu ostatnich kilku lat, uważam, że wiele cech nauki danych jest naznaczonych przez rażąco przepłaconych ludzi, którym brakuje umiejętności dobrej oceny biznesowej, umiejętności komunikacyjnych i szkoleń akademickich w koncepcjach analityki (koncepcji takich, jak np. metoda naukowa!). Ale przyzwyczailiśmy się do tego, że zadania analityczne wymagają teraz nie tylko zrozumienia podstaw statystyki/metod ilościowych, ale także umiejętności samodzielnego dostępu do danych (głównie SQL) i analizowania ich bez potrzeby oprogramowania komercyjnego (głównie Python i R). Nazywamy tych ludzi „jednorożcami”. I nadal twierdzę, że jest ich bardzo mało.

Wielkie kłamstwo

W czasach obecnych osiągnęliśmy wręcz punkt szaleństwa. I niszczymy tym samym podstawy dobrej analityki. Wymagamy raptem, by specjaliści Data Scientist stali się „Full Stack Data Scientist”. Są to naukowcy zajmujący się danymi, którzy są również ekspertami w dziedzinie inżynierii danych. I wiesz co? Pojęcie „Full Stack Data Scientist” jest kłamstwem.

Ale najpierw przykład

Niedawno zaproszono mnie na rozmowę o stanowisko głównego naukowca ds. danych, zarządzającego kilkunastoma naukowcami, zajmującymi się danymi w firmie o dobrej reputacji, wycenionej na miliard dolarów. To brzmiało jak fajna okazja.

Co to znaczy być dobrym chief data scientist? Cóż, w oparciu o doświadczenie, wymaga to wszystkich elementów analitycznych, których brakuje większości naukowców zajmujących się danymi. Rzeczy takie jak konfigurowanie testów, praca z wnioskami, jak nie sprawić by dane mówiły Ci dokładnie to, co chcesz usłyszeć itp. Obejmuje to również techniczną możliwość komunikowania się z pracownikami za pomocą kodu i dyskusji technicznych. I wreszcie wymaga daru zarządzania interfejsem między pracą Twoich zespołów a dyrektorami płacącymi pensje i szukającymi wyników. Musisz być „zaklinaczem danych”. A za 200 tysięcy dolarów rocznie (w Utah to dużo pieniędzy), byłem skłonny przyjąć ofertę.

Pewna strona tej oferty ujawniła się wkrótce po wyrażeniu zgody na rozmowę o stanowisko. Zespół ds. Inżynierii danych odpowiadałby przed głównym Data Scientist, zgodnie z nowym pomysłem zwanym „nauką o pełnym stosie danych”. Tak więc teraz musisz wykorzystać wszystkie umiejętności, o których wspomniałem powyżej i dodawać możliwość budowania kodu produkcyjnego, potoków danych, zarządzania i ulepszania infrastruktury oraz umieć mówić starożytnym dialektem „programistycznej gadki”. Uwierz mi, że zarządzanie programistą wymaga zupełnie innego podejścia niż analityka danych, czy Data Scientist.

Biorąc pod uwagę te nowe informacje, odmówiłem dalszej współpracy, ponieważ nawet 200 000 $ nie wystarczy, aby poradzić sobie z tymi wszystkimi wyzwaniami. I choć niektórzy czytelnicy bez wątpienia zwrócą uwagę, że byliby w stanie się tego podjąć, ja jednak poddałbym pod wątpliwość czy faktycznie „powinni” to robić.

A oto dlaczego...

Czy wolałbyś mieć jednego zestresowanego kolesia za 200 000$, pracującego po 70 godzin tygodniowo, który wcale nie ma realnej możliwość wejścia głęboko w dane na tyle, by naprawdę wpłynąć na zmianę? Czy byłbyś skłonny podzielić pozycję na dwie o wartości 150 tys. dolarów i zatrudnić ekspertów, którzy poświęcili życie zawodowe w swojej dziedzinie i potrafią to zrobić bezbłędnie, bez stresu i frustracji?

Full Stack Data Scientist to wierutna bzdura. Istnieje powód, dla którego pojęcie przewagi komparatywnej trwało tak długo w handlu światowym. Skupiasz swoje zasoby na tym, co robisz najlepiej, nawet jeśli technicznie masz możliwość robienia wszystkiego. Idea Full Stack Data Scientist mieści się właśnie w tej zasadzie. Ale co gorsza, nikt nie bierze pod uwagę ciężaru, jaki takie miejsca pracy narzucają na swoich wykonawców. Naprawdę trudno jest być dobrym przywódcą, gdy Twoje podstawowe obowiązki zawodowe odzwierciedlają sumę co najmniej pięciu innych miejsc pracy.

Wiara w błędne koncepcje

Bez wątpienia analitycy będą nadal wierzyć, że łączenie zestawów umiejętności leży w interesie wydajności i jest wymagane, aby produkt pracy był najwyższej jakości, ale „Full Stack Data Scientist” jest kłamstwem, ponieważ ludzie nie są w stanie (lub nie powinni być w stanie) robić wszystkiego naraz. Ciągła wiara w ideę łączenia aspektów analityki w jedno zadanie będzie pogłębiać problem wizerunkowy Data Scientists jako zbędnych inteligentów, którzy nie niosą ze sobą żadnej wartości biznesowej.