2.02.20247 min
Ismael Araujo

Ismael AraujoManager, Digital Analytics

D-Tale, czyli jedna z najlepszych bibliotek Pythona

Poznaj jedną z obowiązkowych do sprawdzenia bibliotek Pythona i powody, dla których naprawdę warto ją wypróbować.

D-Tale, czyli jedna z najlepszych bibliotek Pythona

Biblioteki Pythona zapewniają szeroki zakres funkcji dla analityków danych. Umożliwiają one pracę z różnymi zbiorami danych i wykonywanie złożonych operacji. Biblioteki Pythona ułatwiają również naukę nowych konceptów. Nauka Pythona może być jednak mimo to nieco przytłaczająca i na początku niektóre zadania, które mogą być proste dla innych użytkowników, zajmują trochę czasu. Właśnie w tym miejscu D-Tale może okazać się bardzo pomocny.

Nawet dla doświadczonych Pythonowców pewne zadania mogą być powtarzalne i marnować czas. D-Tale może okazać się pomocny w optymalizacji zadań takich jak eksploracyjna analiza danych czy ich czyszczenie.

Czym właściwie jest D-Tale? Oto wyjaśnienie od PyPI:

D-Tale to połączenie backendu Flaska i frontendu Reacta, które zapewnia łatwe przeglądanie i analizowanie struktur danych Pandas. Płynnie integruje się z notatnikami ipython i terminalami python/ipython. Obecnie narzędzie to obsługuje takie obiekty Pandas jak DataFrame, Series, MultiIndex, DatetimeIndex i RangeIndex.

Instalacja

Instalacja D-Tale jest bardzo prosta. Wystarczy wpisać pip install dtale w terminalu. U mnie podczas instalacji nie pojawiły się żadne błędy.

Teraz będziemy musieli uzyskać zbiór danych do zbadania D-Tale. Dzisiaj będę korzystać ze zbioru danych COVID. Jest to interesujący zestaw, wystarczająco złożony, aby przetestować niektóre funkcje D-Tale.

Zatem zacznijmy. Najpierw importujemy Pandas i D-Tale do Jupytera. Następnie będziemy musieli zaimportować zestaw danych, przypisać go do zmiennej i wywołać zmienną za pomocą D-Tale.

# Importing libraries
import dtale
import pandas as pd

# Assigning dataset to variable
df = pd.read_csv('covid-data.csv')

dtale.show(df)

Tym sposobem otworzyliśmy GUI D-Tale. W przeciwieństwie do Pandas, możemy wchodzić w interakcje ze zbiorem danych i biblioteką bez wpisywania kodu. Inną fajną rzeczą jest to, że D-Tale pokazuje więcej informacji niż Pandas na pierwszym ekranie.

Po pierwsze, możemy przewinąć w dół w prawo, aby zobaczyć więcej danych. W Pandas nie jest to tak łatwe i intuicyjne jak w tej bibliotece. Następnie w lewym rogu można zobaczyć liczbę kolumn i wierszy bez wpisywania żadnego kodu. U góry strony znajdziesz menu nawigacyjne.

Sprawdźmy teraz funkcje biblioteki. Zaletą D-Tale jest to, że nie musimy używać jej w Jupyter Notebook. Dla celów demonstracyjnych użyjmy więc jej w innej zakładce. Pamiętaj, że poza demo, zależy od ciebie, jak chcesz go używać.

Użyjemy poniższego kodu:

dtale.show(df).open_browser()

Przygotowanie danych

Zmiana typu danych jednym kliknięciem

Zmiana typu danych nie jest trudna w Pandas, nawet dla początkujących, i nie powinieneś mieć problemów z ich zmianą dla jednej lub dwóch funkcji. Co jednak, jeśli trzeba zmienić typ danych ponad 300 funkcji? Nie jest to rzadkość w profesjonalnym środowisku a wpisywanie setek linii kodu w tym celu nie jest najlepszym pomysłem na spędzenie czasu w pracy, czy kiedykolwiek. Dzięki D-Tale możemy zmienić typy danych za pomocą kilku kliknięć.

Przykładowo w tym zestawie danych zauważyłem, że kolumna daty jest stringiem. Nie chcemy tego. Zmieńmy to na DateTime. Wystarczy kliknąć nazwę kolumny, a następnie tuż pod nazwą kolumny kliknąć Type Conversion i wybrać, czy chcesz zmienić kolumnę inplace, czy utworzyć nową. Wybierz typ danych, zmień format daty i kliknij przycisk Apply. Mamy to.

Jest też bonus. Przed zastosowaniem zmiany można zobaczyć kod, który zostanie zastosowany. Jeśli uczysz się Pythona, jest to fantastyczny dodatek.

Jest jeszcze taki trik, że gdy typem danych jest DateTime, możemy zobaczyć dodatkowe informacje po kliknięciu nazwy kolumny, takie jak skośność.

Utwórz nową kolumnę z innym formatem

Możemy również utworzyć nową kolumnę o innym formacie. W tym tutorialu przekonwertujmy kolumnę daty na string. Wystarczy kliknąć nazwę kolumny, którą chcesz przekonwertować, a następnie kliknąć Type Conversion, New Column, wybrać nową nazwę kolumny i wybrać typ danych. 

Usuwanie kolumn

Usuwanie kolumn nie może być prostsze niż tutaj. Wybierz kolumnę, którą chcesz usunąć, kliknij Delete, Yes i kolumna zniknie. Wklepywanie kodu do usuwania kolumn nie jest super skomplikowane, ale przyznasz, że tutaj jest to szybsze i przystępniejsze.

Zmiana nazwy kolumny

Po prostu kliknij nazwę kolumny, wybierz Rename, wpisz nazwę i zapisz. Jest to szczególnie przydatne wtedy, gdy trzeba zmienić nazwę kilkudziesięciu kolumn.

Transformacja danych

Filtrowanie danych

Filtrowanie danych jest niezwykle proste. Kliknij kolumnę, którą chcesz filtrować. W dolnej części ekranu znajdują się opcje filtrowania dla każdego typu danych. D-Tale ma opcje filtrowania takie jak: równe, większe/mniejsze niż, różne niż itp. Wszystko tam jest!

W poniższym przykładzie filtruję kontynenty, aby wyświetlić tylko dane z Ameryki Północnej.

Łączenie danych

Aby połączyć dwie ramki danych, kliknij ikonę ▶ w lewym górnym rogu, a otworzy się nowa karta. Zestawy danych można przesyłać bezpośrednio z interfejsu użytkownika. Wybierz zestawy danych i sposób ich łączenia. Na dole możesz również zobaczyć kod, jeśli zamierzasz użyć go w innym projekcie.

Group by

Aby użyć group by, kliknij Summarize Data, wybierz kolumny, według których chcesz pogrupować, funkcję (suma, liczba, średnia, mediana itp.) i gotowe. Można ją otworzyć na tej samej lub innej karcie.

Opis danych

Potrzebujesz szybkiego podsumowania funkcji? Z D-Tale możesz zobaczyć takie informacje jak liczba i brakujące wartości, częstotliwość, podsumowanie statystyk, m.in. takich jak średnia, mediana, percentyle, odchylenie standardowe, skośność czy liczba słów. W zależności od typu danych wyświetlane są wykresy, m.in. histogram, szereg czasowy, wykres słupkowy itp.

Aby to zrobić, wystarczy kliknąć nazwę kolumny, a następnie wybrać opcję Describe i pojawi się wiele ciekawych informacji.

Jeśli chcesz szybko poruszać się po wszystkich kolumnach, możesz kliknąć znak ▶ w prawym górnym rogu, wybrać opcję podsumowania, a będziesz mógł sprawdzić wszystkie funkcje indywidualnie jednym kliknięciem.

Wizualizacja danych

Wizualizacja danych jest jednym z najbardziej czasochłonnych zadań podczas analizy danych. Nadanie im odpowiedniego wyglądu może być koszmarem dla początkujących, ale D-Tale pomaga też w tym. Możesz tworzyć wizualizacje za pomocą kilku kliknięć. Możesz też pobrać kod i dowiedzieć się, co się w nim dzieje.

Wykres kolumnowy

Zacznijmy tworzyć wykres kolumnowy. Kliknij w prawym górnym rogu, przejdź do wykresów, a otworzy się graficzny interfejs użytkownika. Można tam wybrać jeden z trzynastu rodzajów wykresów. Stamtąd wybierz zmienne X i Y, typ agregacji, jeśli istnieje, i gotowe.

W poniższym przykładzie umieściłem kontynent na osi x, a liczbę wszystkich przypadków COVID na kontynencie na osi y.

Jeśli chcesz pogrupować dane, wpisz zmienną, którą chcesz pogrupować. W tym przykładzie grupuję kraje w grupy kontynentów.

Kod wykresu

Jak już wspomniałem, możesz łatwo dostać się do kodu, aby sprawdzić, jak został utworzony wykres. Jest to dobry sposób na naukę, a nawet dostarczanie produktów końcowych, ponieważ wykresy dobrze się prezentują i mogą być używane jako wersja ostateczna.

Wykres rozkładu

Tworzenie wykresu rozkładu jest równie łatwe jak wykresu kolumnowego. Wybierz oś x i y oraz pogrupuj, jeśli chcesz. Poniżej sprawdzam zależność między liczbą nowych przypadków a liczbą osób zaszczepionych przeciwko COVID-19.

Szeregi czasowe

Za pomocą jednego kliknięcia można łatwo utworzyć wykres szeregu czasowego i przejść do różnych typów szeregów czasowych, takich jak filtry Hodricka-Prescotta i Bacter-Kinga.

Opis zestawu danych

Omówiliśmy już ten temat, ale chciałbym wspomnieć o kilku ciekawych wizualizacjach, które można utworzyć za pomocą funkcji podsumowania, takich jak histogramy, eksplorowanie kategorii i tworzenie wykresu kwantylowego. Najfajniejsze jest to, że wybrane kolumny można łączyć z innymi i ekspresowo tworzyć wykresy. Jest to najlepszy sposób na zrozumienie zbioru danych bez spędzania godzin na wpisywaniu kodu w celu uzyskania wyników, które można uzyskać jednym kliknięciem.

Więcej funkcji D-Tale

Oprócz opcji analizy danych, D-Tale oferuje również kilka dodatkowych ustawień, takich jak wybór języka i trybu ciemnego.

Zmiana języka i trybu ciemnego

D-Tale ma kilka bardziej złożonych zadań, które mogą być niejasne dla osób niemówiących po angielsku. Jeśli znasz chiński lub portugalski, oprócz angielskiego biblioteka obsługuje również te dwa języki, aby przetłumaczyć interfejs użytkownika.

Obsługuje również tryb ciemny. Nie jestem największym fanem trybu ciemnego, ponieważ trudniej mi się w nim czyta, ale pewnie większośc postawi właśnie na ten wybór.

Podświetlanie kolumn

D-Tale pozwala wyróżnić dane w zależności od kilku opcji. Można np. wyróżnić dane w zależności od ich typu. Możemy również wyróżnić wartości NaN i wartości odstające, aby uniknąć ich pominięcia. Można także wyróżniać dane na podstawie argumentów, takich jak większa lub mniejsza od określonej liczby.

Podsumowanie

Mam nadzieję, że klarownie przedstawiłem, jak D-tale może ułatwić życie nawet najbardziej doświadczonym profesjonalistom, zamieniając żmudne zadania w bardziej intuicyjne. Wiele ciekawych i bardziej złożonych funkcji pominąłem w tym tutorialu, więc polecam Ci też przyjrzeć się bibliotece na własną rękę i wybrać z niej, co najbardziej przydatne funkcjonalności.

Czy uważam, że D-Tale jest dla każdego? Na pewno nie, ale jeśli musisz w pracy szybko uzyskać wgląd w zestaw danych lub jesteś raczkującym Pythonowcem, to jest to świetna biblioteka. 



Oryginał tekstu w języku angielskim przeczytasz tutaj.

<p>Loading...</p>