Sytuacja kobiet w IT w 2024 roku
14.03.20225 min
 Cornellius Yudha Wijaya

Cornellius Yudha Wijaya Data Scientist Supervisor

Najlepsze projekty open source do nauki Data Science

Poznaj 5 projektów open source, które przybliżą Ci podstawy Data Science, Machine Learning oraz Deep Learning.

 Najlepsze projekty open source do nauki Data Science

Nauka o danych nie jest łatwa zarówno dla początkujących, jak i dla bardziej zaawansowanych. Między innymi dlatego, że każdego dnia pojawia się coś nowego do nauczenia, a materiały porozrzucane są wszędzie. Bez odpowiedniego nakierowania wiele osób gubi się już na samym starcie i myśli o data science jako o trudnej do pokonania barierze.

Na szczęście dla nas wielu dobrych ludzi zainicjowało projekty open-source do nauki data science. Zostały one napisane w sposób zwięzły i zrozumiały, tak aby można się było z nimi dokładnie zapoznać.

W tym artykule przedstawię różne projekty typu open-source do nauki data science. Przejdźmy więc do rzeczy.

1. Virgilio

Virgilio jest nazywany nowym mentorem e-learningu w data science i dąży do tego, aby każdy miał szanse w tej dziedzinie. Virgilio stara się także stworzyć swego rodzaju ścieżkę dla uczących się, która pozwoli im jednocześnie uporządkować wiedzę i uniknąć niepotrzebnego zamieszania.

Ten projekt został podzielony na trzy etapy, tak aby zaspokoić potrzeby wszystkich użytkowników. Zostały one nazwane: Paradiso – dla wysoko zaawansowanych, Purgatorio – dla początkujących i Inferno – dla zaawansowanych.

Nauka rozpoczyna się od poziomu Paradiso. W materiale znajduje się sama teoria oraz odpowiedzi na pytania, dlaczego warto uczyć się data science (na tym etapie nie będziemy kodować), na przykład:

  • Czym jest uczenie maszynowe i czym różni się od sztucznej inteligencji?
  • Czy potrzebujesz uczenia maszynowego?
  • Przypadki użycia
  • Strategia nauczania


jak i wiele innych. Paradiso to świetny start dla osób, które dopiero rozpoczynają swoją przygodę z data science i chcą lepiej zrozumieć, o co w tym wszystkim chodzi.

Z poziomu Paradiso przechodzimy do poziomu Purgatorio. Obejmuje on podstawy pracy analityków zajmujących się danymi, od zagadnień podstawowych do tych bardziej praktycznych, takich jak:

  • Podstawy matematyki i statystyki
  • Podstawy programowania w Pythonie
  • Definicja zagadnienia
  • Eksploracja danych
  • Szkolenie z zakresu uczenia maszynowego


I wiele innych. Dowiesz się wszystkiego, czego potrzebujesz do rozpoczęcia pracy w dziedzinie data science. Nie przejmuj się taką strukturą, ponieważ Purgatorio również zaczyna od podstaw i przechodzi do ich zastosowania w praktyce.

Ostatnim jest poziom Inferno i jest to część przeznaczona dla zaawansowanych użytkowników. W tej części poznasz konkretne zastosowania w data science:

  • Szeregi czasowe
  • Widzenie komputerowe
  • Przetwarzanie języka naturalnego


Dodatkowo poziom Inferno zawiera materiały dydaktyczne dotyczące konkretnych narzędzi i bibliotek data science. Z czasem ta lista będzie się wydłużać, dlatego warto śledzić ten projekt.

Projekt został stworzony przez różne zespoły i autorów, którzy byli ekspertami w dziedzinie. Jeśli jesteś zainteresowany, możesz porozmawiać z zespołem tutaj i przyczynić się do ich sukcesu.

2. MLCourse

MLCourse jest projektem open-source prowadzonym przez Yury'ego Kashnitsky'ego z OpenDataScience, gdzie można dowiedzieć się nieco więcej o uczeniu maszynowym, gdzie jednocześnie zachowana zostaje idealna równowaga między wiedzą teoretyczną i praktyczną. MLCourse to seria kursów, które możemy realizować we własnym tempie.

Są one jednak przeznaczone dla osób, które posiadają podstawowe umiejętności w zakresie data science, takie jak Python czy math. Nie oznacza to jednak, że osoby początkujące nie mogą spróbować swoich sił w MLCourse — przewodnik po kursach jest tutaj całkiem niezły.

MLCourse zawiera dziesięć tematów do nauki, które powinny być realizowane według określonej kolejności:

  1. EDA i Pandas,
  2. Wizualna analiza danych,
  3. Klasyfikacja, drzewa decyzyjne i K-NN,
  4. Metoda najmniejszych kwadratów i model liniowy,
  5. Bagging,
  6. Inżynieria cech i wybór zmiennych,
  7. Uczenie nienadzorowane,
  8. Optymalizacja,
  9. Szeregi czasowe,
  10. Wzmocnienie gradientowe.


Każdy temat zawiera łatwy i przystępny przewodnik, przykładowy notebook, zadanie i kurs wideo.

Wadą programu MLCourse jest to, że został wstrzymany w 2019 r. dla języka angielskiego (język rosyjski zostanie wznowiony w 2022 r.). Materiały są nadal jednak aktualne, jeśli chodzi o data science — szczególnie dla początkujących.

3. ProjectLearn

ProjectLearn to projekt open-source, który zawiera wyselekcjonowaną listę projektów do samodzielnej nauki. Twórca ProjectLearn dąży do tego, aby nauka była bardziej praktyczna niż teoretyczna, więc możesz spodziewać się, że nauczysz się konkretnych umiejętności, a nie tylko czystej teorii.

ProjectLearn nie jest przeznaczony wyłącznie do nauki data science. Nauczysz się tam także tworzenia stron internetowych, aplikacji mobilnych i gier. Jest jednak specjalna sekcja poświęcona uczeniu maszynowemu i sztucznej inteligencji, czyli to, co nas teraz interesuje.

Większość projektów tutaj zawiera linki do innych artykułów lub filmów, ale projekty są już opracowane i będą idealnym rozwiązaniem dla osób, które chcą poznać możliwości uczenia maszynowego.

4. Deepkapha

Deepkapha to projekt open-source, który zawiera wiele tutoriali z zakresu sztucznej inteligencji i Deep Learning. Kiedy patrzę na Deepkapha, mam wrażenie, że projekt jest przeznaczony dla osób, które mają podstawową wiedzę z zakresu programowania i data science, dlatego lepiej zgłębiać Deepkapha, gdy jest się już na to gotowym.

Wiele tutoriali Deepkapha skupia się na Deep Learning i różnych frameworkach, co będzie idealnym rozwiązaniem, jeśli chcesz zgłębić koncepcję Deep Learning i zobaczyć różnice między frameworkami. Nadal jednak możesz zgłębiać wiele innych materiałów dydaktycznych, choć nie są one tak szczegółowe.

Jeszcze jedna sekcja, którą uważam za wartą uwagi, to Deep Learning blog collection, która zawiera wpisy różnych autorów i blogi poświęcone Deep Learning. Kolekcja jest tak bogata, że przeglądnięcie wszystkich wpisów spokojnie może zająć kilka dni.

5. Best-of ML Python

Best-of ML Python jest częścią projektu open-source Best-of, w ramach którego codziennie aktualizowane są różne pakiety i narzędzia open-source. Best-of ML Python jest przeznaczony dla pakietów open-source uczenia maszynowego w Pythonie.

Seria Best-of nie zawierała tutoriali typu “jak zrobić to i to” czy nauki podstawowych pojęć. Zamiast tego skategoryzowane zostały wszystkie te świetne pakiety Pythona, które możemy wypróbować.

Jak widać na powyższym GIF-ie lista jest dość bogata i podzielona na segmenty w zależności od potrzeb. W pakiecie znajduje się prawie wszystko, czego potrzebujesz do nauki danego tematu, dlatego w miarę możliwości korzystaj jak najwięcej.

Podsumowanie

Nauka data science nie jest łatwa i możemy czuć się zdezorientowani, jeśli nie wiemy, od czego dokładnie zacząć. Dlatego też w tym artykule chciałem przedstawić najlepsze w mojej opinii projekty open-source do nauki data science. Były to:

  1. Virgilio
  2. MLCourse
  3. ProjectLearn
  4. Deepkapha
  5. Best-of ML Python

Mam nadzieję, że artykuł się przyda!


Oryginał tekstu w języku angielskim przeczytasz tutaj.

<p>Loading...</p>