"Wyniki pokazują, że AMALIA-DPO [bezpośrednia optymalizacja preferencji] osiąga najlepsze wyniki wśród w pełni otwartych modeli ze znacznym marginesem, uzyskując nawet najlepsze wyniki wśród wszystkich modeli w leksykologii i semantyce, demonstrując solidne opanowanie specyficznych kompetencji językowych" języka portugalskiego w kilku kategoriach.

Portugalski Amália LLM [Large Language Model] był stale rozwijany przez konsorcjum portugalskich uniwersytetów, które przewodziło jego rozwojowi.

Zgodnie z raportem technicznym, w dogłębnej ocenie europejskiego języka portugalskiego, Amália ma wyraźną przewagę nad innymi otwartymi modelami.

W portugalskich egzaminach krajowych (portugalskie pytania z długimi odpowiedziami), Amália "uzyskuje najlepszy wynik ze wszystkich w pełni otwartych modeli, wykazując dobre rozumienie złożonych zdań i spójną produkcję tekstu, z odpowiednią gramatyką i rejestrem".

W niniejszym raporcie "przedstawiamy LLM, który nadaje priorytet europejskiemu językowi portugalskiemu i jego kontekstowi kulturowemu", czytamy w dokumencie, w którym stwierdza się, że Amália wykorzystuje dane z arquivo.pt i dane potreningowe przygotowane specjalnie dla europejskiego języka portugalskiego.

Dokument wskazuje, że LLM został przeszkolony przy użyciu modelowania języka i strategii dostosowywania instrukcji.

"Podstawowym wyzwaniem w rozwoju tego modelu był brak punktów odniesienia do monitorowania postępów w jego wydajności" - zauważono w raporcie.

Aby złagodzić to ograniczenie, "wykorzystaliśmy krajowe egzaminy PT-PT, stworzyliśmy językowy punkt odniesienia i przetłumaczyliśmy kilka zestawów danych" za pomocą dedykowanego, wysokiej jakości modelu tłumaczenia maszynowego (MT).

"Ocena wykazała, że Amália przewyższa wszystkie poprzednie modele open-source w PT-PT i wiele modeli "open-weight" [które dzielą wagi (wytrenowane parametry)]", podsumowuje raport techniczny.

"Eksperymenty dotyczące rozumienia języka i benchmarków wnioskowania pokazują najnowocześniejsze lub porównywalne wyniki, podczas gdy w benchmarkach generowania języka model wyróżnia się jakością generowanego tekstu. Eksperymenty bezpieczeństwa pokazują również, że model jest zgodny z aktualnym stanem wiedzy" - czytamy w raporcie.

W przyszłości "zbadamy inne metody uczenia ze wzmocnieniem i opracujemy nowe kombinacje danych szkoleniowych, aby poprawić zdolności rozumowania w PT-PT".

Innymi słowy, w praktyce wyniki te wskazują, że Amália staje się niezawodnym asystentem w europejskim języku portugalskim.

Raport został napisany przez João Magalhãesa (UNL) i André Martinsa (IST), koordynatorów, oraz zespół około 20 osób z Uniwersytetu Lizbońskiego i Universidade Nova de Lisboa.

Model Amalia jest rozwijany przez zespół złożony z przedstawicieli Universidade Nova de Lisboa, Instituto Superior Técnico, Universidade de Coimbra, Universidade do Porto, Universidade do Minho i Fundação para a Ciência e Tecnologia.

Proces tworzenia Amálii rozpoczął się od gromadzenia i przetwarzania europejskich danych portugalskich na dużą skalę, które zostały przefiltrowane na podstawie ich przydatności i jakości językowej. W tym celu wykorzystano Portugalskie Archiwum Internetowe. Model został wstępnie wytrenowany na tych danych, a następnie dopracowany na innych zestawach danych w celu wykonywania instrukcji, rozumowania i rozwiązywania problemów.

Do szkolenia modeli wykorzystano infrastrukturę obliczeniową na dużą skalę, przy użyciu krajowych superkomputerów (Mare Nostrum 5 i Deucalion) oraz europejskich superkomputerów (za pośrednictwem sieci EuroHPC).