"Wyniki pokazują, że AMALIA-DPO [bezpośrednia optymalizacja preferencji] osiąga najlepsze wyniki wśród w pełni otwartych modeli ze znacznym marginesem, uzyskując nawet najlepsze wyniki wśród wszystkich modeli w leksykologii i semantyce, demonstrując solidne opanowanie specyficznych kompetencji językowych" języka portugalskiego w kilku kategoriach.
Portugalski Amália LLM [Large Language Model] był stale rozwijany przez konsorcjum portugalskich uniwersytetów, które przewodziło jego rozwojowi.
Zgodnie z raportem technicznym, w dogłębnej ocenie europejskiego języka portugalskiego, Amália ma wyraźną przewagę nad innymi otwartymi modelami.
W portugalskich egzaminach krajowych (portugalskie pytania z długimi odpowiedziami), Amália "uzyskuje najlepszy wynik ze wszystkich w pełni otwartych modeli, wykazując dobre rozumienie złożonych zdań i spójną produkcję tekstu, z odpowiednią gramatyką i rejestrem".
W niniejszym raporcie "przedstawiamy LLM, który nadaje priorytet europejskiemu językowi portugalskiemu i jego kontekstowi kulturowemu", czytamy w dokumencie, w którym stwierdza się, że Amália wykorzystuje dane z arquivo.pt i dane potreningowe przygotowane specjalnie dla europejskiego języka portugalskiego.
Dokument wskazuje, że LLM został przeszkolony przy użyciu modelowania języka i strategii dostosowywania instrukcji.
"Podstawowym wyzwaniem w rozwoju tego modelu był brak punktów odniesienia do monitorowania postępów w jego wydajności" - zauważono w raporcie.
Aby złagodzić to ograniczenie, "wykorzystaliśmy krajowe egzaminy PT-PT, stworzyliśmy językowy punkt odniesienia i przetłumaczyliśmy kilka zestawów danych" za pomocą dedykowanego, wysokiej jakości modelu tłumaczenia maszynowego (MT).
"Ocena wykazała, że Amália przewyższa wszystkie poprzednie modele open-source w PT-PT i wiele modeli "open-weight" [które dzielą wagi (wytrenowane parametry)]", podsumowuje raport techniczny.
"Eksperymenty dotyczące rozumienia języka i benchmarków wnioskowania pokazują najnowocześniejsze lub porównywalne wyniki, podczas gdy w benchmarkach generowania języka model wyróżnia się jakością generowanego tekstu. Eksperymenty bezpieczeństwa pokazują również, że model jest zgodny z aktualnym stanem wiedzy" - czytamy w raporcie.
W przyszłości "zbadamy inne metody uczenia ze wzmocnieniem i opracujemy nowe kombinacje danych szkoleniowych, aby poprawić zdolności rozumowania w PT-PT".
Innymi słowy, w praktyce wyniki te wskazują, że Amália staje się niezawodnym asystentem w europejskim języku portugalskim.
Raport został napisany przez João Magalhãesa (UNL) i André Martinsa (IST), koordynatorów, oraz zespół około 20 osób z Uniwersytetu Lizbońskiego i Universidade Nova de Lisboa.
Model Amalia jest rozwijany przez zespół złożony z przedstawicieli Universidade Nova de Lisboa, Instituto Superior Técnico, Universidade de Coimbra, Universidade do Porto, Universidade do Minho i Fundação para a Ciência e Tecnologia.
Proces tworzenia Amálii rozpoczął się od gromadzenia i przetwarzania europejskich danych portugalskich na dużą skalę, które zostały przefiltrowane na podstawie ich przydatności i jakości językowej. W tym celu wykorzystano Portugalskie Archiwum Internetowe. Model został wstępnie wytrenowany na tych danych, a następnie dopracowany na innych zestawach danych w celu wykonywania instrukcji, rozumowania i rozwiązywania problemów.
Do szkolenia modeli wykorzystano infrastrukturę obliczeniową na dużą skalę, przy użyciu krajowych superkomputerów (Mare Nostrum 5 i Deucalion) oraz europejskich superkomputerów (za pośrednictwem sieci EuroHPC).






