Gemini - konkurencja dla GPT od Google

Dowiedz się wszystkiego, co musisz wiedzieć o modelach z rodziny Gemini i ich możliwościach.

Gemini to nowa rodzina multimodalnych modeli AI od DeepMind. Ponieważ DeepMind jest własnością Google’a, to Gemini można postrzegać jako odpowiedź firmy na GPT od OpenAI. Odpowiedź ta według Google’a jest piorunująca, bo w materiałach promocyjnych chwalą się, że Gemini Ultra przewyższa wynik GPT 4 w niemal każdym benchmarku AI.

Ma to być nowe otwarcie dla Google w dziedzinie dużych modeli, co było dla nich szczególnie ważne po bardzo pośpiesznym wypuszczeniu Google Bard na początku roku.

Jest sporo do przeanalizowania i przyjrzymy się najważniejszym cechom Gemini, gdzie faktycznie bryluje, a gdzie historyjka Google’a jest nieco naciągana.

Czym jest Gemini?

Jak już wspomnieliśmy na początku Gemini to rodzina modeli, a nie jeden pojedynczy model. Występuje w trzech rozmiarach.

Rodzina modeli Gemini

Ultra to najpoteżniejszy model, który ma konkurować z GPT4, niestety jego premiera nastąpi dopiero w przyszłym roku. Przesunięcie ma być spowodowane jeszcze trwającym treningiem i testami, szczególnie w mniej popularnych językach, gdzie jeszcze dość łatwo złamać zabezpieczenia modelu.
Pro to odpowiednik mniej więcej GPT3.5 i będzie dostępny 13 grudnia. Będzie dostępny w Google AI Studio i przez API w Google Cloud.
Nano to malutki jak na LLM model, z 3,5 miliardami parametrów, odpowiedni do uruchamiania na urządzeniach końcowych. Google chce go użyć między innymi na telefonach Pixel i tam ma zajmować się prostymi zadaniami jak streszczanie tekstu.

Najważniejszą cechą modeli Gemini jest to, że od początku były budowane jako multimodalne. Oznacza to, że bez problemu może się przełączać między tekstem, obrazem, wideo, audio i kodem.

Co potrafi Gemini?

W praktycznie wszystkich materiałach Google skupia się na najlepszym ze swoich modeli, czyli na Gemini Ultra.

DeepMind chwali się, że jest to pierwszy model który osiągnał 90% w bechmarku MMLU, który sprawdza szeroką gamę problemów. Wynik na poziomie 89.8% osiągają eksperci (ludzie), a 86.4% GPT4 (albo 87,29%, co testował sam DeepMind). Są też pewne wątpliwości co do samego MMLU i jego dokładności, więc nieco dziwi wybór tego właśnie benchmarku.

W każdym razie MMLU to benchmark tekstowy i w dziedzinie tekstu możliwości Gemini Ultra i GPT4 są zbliżone.

Natomiast Gemini Ultra lepiej radzi sobie z innymi typami wejścia. Uzyskuje znacznie lepsze wyniki w benchmarkach AI związnych szczególnie z wideo i mową czy nawet tłumaczeniem. Ta przewaga wynika z projektowania modeli z myślą o multimodalności od samego początku.

Dzięki temu łatwiej o generowanie np. kodu na podstawie obrazów ale też rozumowanie w dziedzinie obrazu jest mocną stroną Gemini:

EDIT: Jak się okazało powyższy filmik nie jest dobrą reprezentacją tego, jak Gemini działa. W rzeczywistości Google przy tego typu demonstracjach używało kombinacji obrazu i tekstu. To, jak wyglądało to w rzeczywistości jest dobrze przedstawione na blogu Google'a dla deweloperów - pod tym linkiem.

Jeżeli chodzi o kod, to DeepMind równolegle wypuścił pochodny model AlphaCode 2, który jest na tyle ciekawy, że opisujemy go w osobnym wpisie: AlphaCode 2 - koduje lepiej niż 85% programistów.

Kontekst dostępny dla modeli to 32k tokenów.

Co dalej z Gemini?

Jak już wspominaliśmy nowe modele mają być dostępne od 13 grudnia.

Gemini już zasila natomiast Google Bard, czyli ich odpowiednik ChatGPT. Oczywiście wyjątkiem jest tu Europa i Wielka Brytania, gdzie to narzędzie nie jest dostępne.

Kolejnym wyjątkiem od tej daty jest oczywiście Gemini Ultra, który pojawi się dopiero na początku roku.

Patrząc na to pozostaje pewien niedosyt, bo w zasadzie jest to dopiero zapowiedź tego, co opublikują w kolejnych dniach i miesiącach.

Gemini raczej nie zagrozi bezpośrednio pozycji OpenAI, ale umożliwi Google skontrowanie działań Microsoftu. Po prostu będą mieli do dyspozycji znacznie lepszy model niż do tej pory, który będą mogli integrować w swoich produktach.

Interesujące są też zdolności Gemini w przypadku obrazu, wideo i audio - tu upatrujemy najciekawszych zastosowań.