"Результаты показывают, что AMALIA-DPO [Direct Preference Optimisation] достигает наилучших показателей среди полностью открытых моделей со значительным отрывом и даже получает лучшие результаты среди всех моделей в лексикологии и семантике, демонстрируя надежное владение специфическими лингвистическими компетенциями" португальского языка в нескольких категориях.
Португальская Amália LLM [Large Language Model] постоянно развивается консорциумом португальских университетов, возглавляющих ее разработку.
Согласно техническому отчету, при углубленной оценке европейского португальского языка Amália имеет явные преимущества перед другими открытыми моделями.
На национальных экзаменах по португальскому языку (вопросы с развернутым ответом) Amália "получила лучший результат среди всех полностью открытых моделей, продемонстрировав хорошее понимание сложных предложений и связное построение текста с соответствующей грамматикой и регистром".
В этом отчете "мы представляем LLM, в котором приоритет отдается европейскому португальскому языку и его культурному контексту", - говорится в документе, где указано, что Amália использует данные с сайта arquivo.pt и данные после обучения, подготовленные специально для европейского португальского.
В документе указывается, что при обучении LLM использовались стратегии языкового моделирования и корректировки обучения.
"Основной проблемой при разработке этой модели было отсутствие контрольных показателей для отслеживания прогресса в работе модели", - отмечается в отчете.
Чтобы устранить это ограничение, "мы использовали национальные экзамены PT-PT, создали лингвистический эталон и перевели несколько наборов данных" с помощью специальной высококачественной модели машинного перевода (MT).
"Оценка показала, что Amália превосходит все предыдущие модели с открытым исходным кодом в PT-PT и многие модели с "открытым весом" [которые совместно используют веса (обученные параметры)]", - говорится в заключении технического отчета.
"Эксперименты с эталонами понимания языка и вывода показывают современные или сопоставимые результаты, а в эталонах генерации языка модель превосходит по качеству генерируемого текста. Эксперименты по безопасности также показывают, что модель соответствует современному уровню", - говорится в отчете.
В будущем "мы будем исследовать другие методы обучения с подкреплением и разрабатывать новые комбинации обучающих данных для улучшения способности к рассуждениям в PT-PT".
Другими словами, на практике эти результаты свидетельствуют о том, что Amália становится надежным помощником в изучении европейского португальского языка.
Отчет написан Жоао Магальяэшем (UNL) и Андре Мартинсом (IST), координаторами, и командой из примерно 20 человек из Лиссабонского университета и Университета Нова де Лисбоа.
Модель "Амалия" разрабатывается командой, состоящей из представителей Университета Нова де Лисбоа, Высшего технического института, Университета Коимбры, Университета Порту, Университета Минью и Фонда развития науки и технологий.
Процесс создания Amália начался с масштабного сбора и обработки данных о европейском португальском языке, которые были отфильтрованы с учетом их актуальности и лингвистического качества. Для этого использовался португальский веб-архив. Модель была предварительно обучена на этих данных, а затем отлажена на других наборах данных, чтобы следовать инструкциям, рассуждать и решать проблемы.
Для обучения моделей использовалась крупномасштабная вычислительная инфраструктура с применением национальных суперкомпьютеров (Mare Nostrum 5 и Deucalion) и европейских суперкомпьютеров (через сеть EuroHPC).







