Phi-2 - duży krok w stronę małych modeli językowych

Poznaj specyfikę SLM, czyli małych modeli językowych, na przykładzie świeżego modelu Phi-2 od Microsoftu.

W 2023 roku uwaga środowiska IT w dużej miejsce koncentrowała się na rozwoju dużych modeli językowych (LLM) takich jak GPT od OpenAI, PaLM czy Gemini od Google, czy nawet LLaMA od Mety Nie da się dyskutować z tym, że zdominowali liczbę i rangę doniesień w tym obszarze. Jednak wydajność mniejszych wersji LLaMA przykuła uwagę Microsoftu, bo okazało się, że model z kilkoma miliardami parametrów może rywalizować w niektórych zadaniach z o wiele większymi modelami. Microsoft postawił się na dalszą eksplorację możliwości podobnych modeli, które nazwał małymi modelami językowymi (SLM), Efekt tych prac to seria Phi.

SLM, takie jak Phi-2, stawiają na minimalizację zasobów i bardziej zindywidualizowane podejście do generowania treści. W przeciwieństwie do potężnych modeli LLM, Phi-2 działa na znacznie mniejszej liczbie parametrów (2,6 mld), co zdaniem Microsoftu nie stoi w sprzeczności z efektywnością działania tego modelu.

Kluczem do sukcesu SLM ma być selektywne dobieranie danych treningowych. W przypadku Phi-2, proces ten opiera się na łączeniu syntetycznych danych wygenerowanych automatycznie przez AI z danymi zamieszczonymi w sieci, wyselekcjonowanymi pod kątem wartości edukacyjnej i jakości. To podejście pozwala na uzyskanie modelu zdolnego "wypluwać" bardziej klarowne i zwięzłe odpowiedzi.

Testy porównawcze

Mimo znacznie mniejszej liczby parametrów w porównaniu do LLM, Phi-2 radzi sobie równie dobrze, a czasem nawet lepiej, w testach porównawczych. Trenowanie takiego modelu trwa 2 tygodnie, co jest znacząco krótszym okresem niż w przypadku LLM-ów. To z kolei przekłada się na mniejsze zużycie zasobów, co może być decydującym czynnikiem przy wyborze właśnie małych modeli językowych przez firmy, które chcą korzystać z własnych modeli.

Warto wspomnieć tu o niestandardowym podejściu do danych treningowych. Zamiast polegać na dużych zbiorach losowych danych z internetu, zespół odpowiedzialny za Phi-2 skupia się na kuracji danych, koncentrując się na jakości treści. To eliminuje potrzebę stosowania uczenia ze wzmocnieniem opartego na ludzkim feedbacku, co z kolei minimalizuje ryzyko toksycznych lub stronniczych rezultatów.

Dostępność i zastosowanie Phi-2

Jak widać małe modele językowe prezentują się jako obiecująca alternatywa dla kobył, jakimi są obecnie LLM-y. Ich ograniczone wymagania zasobowe sprawiają, że są bardziej dostępne dla różnych organizacji, zwłaszcza w kontekście korzystania z chmur obliczeniowych. Zastosowanie Phi-2 jako narzędzia do generowania czy przetwarzania treści otwiera nowe perspektywy, zwłaszcza w przypadku zadań, które nie wymagają mocy ogromnych modeli. To dobry krok w kierunku optymalizacji i lepszej dostępności tego typu technologii.