Rebecca VickeryData Scientist @ Holiday Extras

Co trzeba umieć, aby pracować jako Data Scientist w 2021

Sprawdź, które kluczowe umiejętności należy posiąść, aby dostać pracę jako Data Scientist i rozwijać się w tym kierunku w 2021 roku.

27.07.20215 min

Techniczne Rozwój i Kariera

Co trzeba umieć, aby pracować jako Data Scientist w 2021

Kiedy zaczynałam z Data Science kilka lat temu, to większość ogłoszeń o pracę wymagała tytułu doktorskiego, lub co najmniej magistra matematyki, statystyki, lub czegoś podobnego. Był to warunek konieczny. Ale sprawy wyglądają teraz nieco inaczej. Za zmianami stoją następujące czynniki: rozwój bibliotek uczenia maszynowego, które upraszczają złożoność algorytmów, oraz uświadomienie sobie, że korzystanie z ML do rozwiązywania problemów biznesowych wymaga prawdziwej praktyki, a nie wiedzy akademickiej.

Firmy zatrudniają teraz na stanowisko Data Scientist na podstawie umiejętności pracy z danymi, a nie na podstawie tytułu naukowego. A takie Data Science, które przynosi korzyści biznesowe w najszybszy możliwy sposób, wymaga sporej praktyki.

Co więcej, w momencie gdy coraz więcej firm migruje swoje dane i rozwiązania ML na chmurę, Data Scientists muszą znać i rozumieć narzędzia i technologię, która się z tym wiąże.

Wydaje mi się też, że dni, gdy pracowało się tylko nad modelowaniem danych, czyli wykorzystywaniem danych wyciągniętych przez inżynierów i przekazywaniem ich modelu developerom, aby wrzucili to na produkcję, już dawno minęły. Widać to zwłaszcza w takich firmach jak Amazon, Facebook oraz Google. W większości firm, z wyłączeniem właśnie tych gigantów technologii, nie ma takich zasobów w teamach developerskich, a zespoły mają inne priorytety.

“Jak to mówią, jak coś jest od wszystkiego, to jest do niczego. Ale Data Scientists musi być od wszystkiego po trochu, i to wcale nie jest coś złego” Brendan Tierney, Principal Consultant w Oralytics.

Aby Data Scientist mógł dostarczyć maksymalną wartość dla jakiejś firmy, to musi się odnaleźć w każdym etapie SDLC. Warto mieć minimalny stopień wiedzy, jeśli chodzi o tworzenie potoków danych, samej analizy danych, uczenia maszynowego, matematyki, statystyki, inżynierii danych, chmury obliczeniowej i inżynierii oprogramowania.

A to oznacza, że w 2021 lepiej jest być generalistą, niż specjalistą.

"Poszerzająca się perspektywa sprawia, że ludzie pracują w bardziej unikatowy sposób. Całkowita przeciwność wąskiej specjalizacji, czyli umiejętność szerszej integracji, to nasza największa siła." David Epstein w książce Why Generalists Triumph in a Specialized World.

Nie ma w tym artykule wszystkiego, czego należałoby się nauczyć. Zamiast tego wymieniłam kluczowe umiejętności, zarówno te stare, jak i nowe. Poniżej znajdziecie fundamentalne rzeczy, które należy umieć, aby stać się dobrym Data Scientist w 2021.

Python 3

Nadal mamy trochę przypadków, w których używa się R, ale jeśli mówimy o stosowanym Data Science, to Python jest tutaj najbardziej wartościowym językiem programowania. Python 3 stał się już domyślny dla większości aplikacji, bo Python 2 nie jest obsługiwany w większości bibliotek od 1 stycznia 2020.

Jeśli chcesz uczyć się tego języka, to warto wybrać kurs, który dotyczy Pythona 3. Musisz dobrze znać jego podstawową składnię oraz wiedzieć, jak pisać funkcje, pętle i moduły. Dobrze jest w Pythonie znać zarówno programowanie obiektowe, jak i funkcyjne oraz umieć budować, uruchamiać i debugować programy.

Pandas

Pandas to nadal biblioteka numer 1 w Pythonie jeśli chodzi o manipulację, przetwarzanie i analizę danych. Jej znajomość to zatem jedna z najważniejszych umiejętności dla Data Scientist.

Dane są tutaj sercem każdego projektu, a Pandas to narzędzie, które umożliwia ich wydobywanie, czyszczenie, przetwarzanie i uzyskiwanie z nich insightów.

Co więcej, większość bibliotek uczenia maszynowego obecnie przyjmuje Pandas DataFrames jako standardowe dane wejściowe.

SQL i NoSQL

SQL istnieje od lat 70., ale znajomość tego języka jest nadal jedną z najważniejszych i najbardziej poszukiwanych umiejętności wśród Data Scientists. Zdecydowana większość firm wykorzystuje relacyjne bazy danych jako magazyny danych analitycznych, a SQL jest dla Analityka narzędziem, które te dane dostarczy.

NoSQL (albo Not Only SQL) to bazy, które nie przechowują danych jako tabel relacyjnych. Zamiast tego są one przechowywane jako pary klucz-wartość, szerokie kolumny lub jako grafy. Przykładowe bazy danych NoSQL to Google Cloud Bigtable i Amazon DynamoDB.

Wraz ze wzrostem ilości danych gromadzonych przez firmy i coraz częstszym wykorzystywaniem nieustrukturyzowanych danych w modelach uczenia maszynowego organizacje zwracają się ku bazom danych NoSQL jako uzupełnieniu lub alternatywie dla tradycyjnego magazynu danych.

Trend ten utrzyma się prawdopodobnie w 2021. A ważne jest, aby uzyskać przynajmniej podstawową wiedzę na temat interakcji z danymi w takiej właśnie formie.

Chmura

Według raportu O’Reilly ze stycznia 2020 88% organizacji korzystało w tym czasie z jakiejś formy infrastruktury chmurowej. Wpływ COVID-19 prawdopodobnie jeszcze bardziej rozpowszechnił taką tendencję.

„Na pierwszy rzut oka wykorzystanie chmury wydaje się przytłaczające, a ponad 88% procent respondentów korzysta z chmury w takiej, czy innej formie. Większość organizacji biorących udział w badaniu spodziewa się również wzrostu jej wykorzystania w ciągu najbliższych 12 miesięcy”.Cloud Adoption 2020, Roger Magoulas i Steve Swoyer.

Wykorzystanie chmury w innych obszarach biznesu zwykle idzie w parze z rozwiązaniami do przechowywania danych, analiz i uczenia maszynowego, które są oparte na chmurze.

Główni dostawcy usług chmurowych (tacy jak Google Cloud Platform, Amazon Web Services i Microsoft Azure) w szybkim tempie opracowują narzędzia do szkolenia, wdrażania i obsługi modeli uczenia maszynowego.

W 2021 roku i później bardzo prawdopodobne jest to, że będziesz pracować z danymi przechowywanymi w takiej chmurowej bazie danych, jak Google BigQuery. W chmurze będą też modele uczenia maszynowego.

Doświadczenie i umiejętności w tej dziedzinie będą prawdopodobnie bardzo pożądane.

Apache Airflow

Apache Airflow, narzędzie open source do zarządzania przepływem pracy, jest szybko wdrażane przez wiele firm, aby zarządzać procesami ETL i potokami uczenia maszynowego.

Używa go wiele dużych firm technologicznych, takich jak Google i Slack, a Google nawet zbudowało swój własny cloud composer na podstawie tego projektu. Coraz częściej widzę, że znajomość Airflow jest wymieniana jako wymaganie w ogłoszeniach o pracę.

Jak wspomniałam na początku, uważam, że dla specjalisty Data Scientist ważniejsza będzie możliwość tworzenia i zarządzania własnymi potokami danych do analiz i uczenia maszynowego.

Popularność Airflow będzie pewnie cały czas rosła (przynajmniej jeszcze przez jakiś czas). Jest to również narzędzie open source, co sprawia, że każdy początkujący Data Scientist powinien je znać.

Inżynieria oprogramowania

Kod Data Science jest niechlujny, nie zawsze dobrze przetestowany i niezgodny z konwencjami stylu. Sprawdza się to przy wstępnej eksploracji danych i szybkiej analizie, ale jeśli chodzi o wprowadzenie modeli uczenia maszynowego na produkcję, to trzeba już dobrze rozumieć zasady inżynierii oprogramowania.

Jeśli planujesz pracować jako Data Scientist, to prawdopodobnie będziesz samemu wprowadzać modele na produkcję lub przynajmniej będziesz mocno zaangażowany w ten proces. Dlatego konieczne jest uwzględnienie następujących umiejętności podczas nauki:

Konwencje formatowania kodu, np. PEP 8 Python style guide.
Testy jednostkowe
Kontrola wersji, np. na GitHubie
Zależności i środowiska wirtualne
Kontenery, np. Docker

W artykule tym chciałam zwrócić uwagę na kilka kluczowych trendów pojawiających się w zakresie umiejętności wymaganych od Data Scientists. Wnioski te zostały wyciągnięte podczas przeglądu aktualnych ogłoszeń, mojego własnego doświadczenia i czytania artykułów dotyczących przyszłych trendów w Data Science. Dziękuję za uwagę!

Oryginał tekstu w języku angielskim możesz przeczytać tutaj.