"התוצאות מראות כי AMALIA-DPO [אופטימיזציה של העדפה ישירה] משיגה את הביצועים הטובים ביותר מבין המודלים הפתוחים במלואם בהפרש ניכר, ואף משיגה את התוצאות הטובות ביותר מבין כל המודלים בלקסיקולוגיה וסמנטיקה, מה שמדגים שליטה חזקה בכישורים הלשוניים הספציפיים" של פורטוגזית במספר קטגוריות.
ה- Amália LLM הפורטוגזי [מודל שפה גדול] מתפתח ללא הרף על ידי קונסורציום האוניברסיטאות הפורטוגזיות, והוביל את פיתוחו.
על פי הדו"ח הטכני, בהערכה מעמיקה של הפורטוגזית האירופית, לאמאליה יתרונות ברורים על פני דגמים פתוחים אחרים.
בבחינות לאומיות בפורטוגזית (שאלות פורטוגזית עם תשובות ארוכות), אמליה "משיגה את הציון הטוב ביותר מכל דגמי הקוד הפתוח לחלוטין, ומפגינה הבנה טובה של משפטים מורכבים והפקת טקסט קוהרנטית, עם דקדוק ורישום מתאימים".
בדו"ח זה, "אנו מציגים LLM שמעדיף את השפה הפורטוגזית האירופית ואת ההקשר התרבותי שלה", נכתב במסמך, הקובע כי אמליה משתמשת בנתונים מ- arquivo.pt ובנתונים שלאחר אימון שהוכנו במיוחד עבור פורטוגזית אירופית.
המסמך מציין כי LLM הוכשר באמצעות מודלים של שפה ואסטרטגיות התאמת הוראה.
"אתגר מהותי בפיתוח מודל זה היה היעדר מדדים למעקב אחר התקדמות ביצועי המודל", מציין הדו"ח.
כדי להפחית מגבלה זו, "השתמשנו בבחינות PT-PT לאומיות, יצרנו אמת מידה לשונית ותרגמנו מספר מערכי נתונים" עם מודל ייעודי לתרגום מכונה איכותי (MT).
"ההערכה הראתה כי אמליה עולה על כל דגמי הקוד הפתוח הקודמים ב- PT-PT ומודלים רבים של משקל פתוח [החולקים את המשקולות (פרמטרים מאומנים)]", מסכם הדו"ח הטכני.
"ניסויים בהבנת שפה ומדדי הסקה מראים תוצאות חדישות או דומות, בעוד שבמדדי יצירת שפה, המודל מצטיין באיכות הטקסט שנוצר. ניסויי אבטחה מראים גם שהמודל תואם את מצב האמנות", נכתב בדו"ח.
בעתיד, "נחקור שיטות למידת חיזוק אחרות ונפתח שילובים חדשים של נתוני אימון לשיפור יכולות החשיבה ב- PT-PT".
במילים אחרות, בפועל, תוצאות אלה מצביעות על כך שאמאליה הופכת אמינה כעוזרת בפורטוגזית האירופית.
הדו"ח נכתב על ידי ז'ואאו מגלהאס (UNL) ואנדרה מרטינס (IST), הרכזים, וצוות של כ -20 אנשים מאוניברסיטת ליסבון ומאוניברסיטת נובה דה ליסבון.
מודל עמליה מפותח על ידי צוות המורכב מאוניברסיטת נובה דה ליסבון, המכון הטכנולוגי העליון, האוניברסיטה של קוימברה, אוניברסיטת פורטו, האוניברסיטה דו מינהו והקרן למדינה וטכנולוגיה.
תהליך יצירת אמליה החל באיסוף ועיבוד נתונים פורטוגזים אירופיים בקנה מידה גדול, שסוננו על סמך הרלוונטיות והאיכות הלשונית שלהם. ארכיון האינטרנט הפורטוגזי שימש למטרה זו. המודל הוכשר מראש על נתונים אלה ולאחר מכן כוונן היטב על מערכי נתונים אחרים כדי לעקוב אחר הוראות, לנמק ולפתור בעיות
.תשתית מחשוב בקנה מידה גדול שימשה להכשרת הדגמים, באמצעות מחשבי-על לאומיים (Mare Nostrum 5 ו- Deucalion) ומחשבי על אירופיים (דרך רשת EuroHPC).








