TÜBİTAK permettra à l'intelligence artificielle de penser comme un Turc

Le développement et la diffusion de l’intelligence artificielle ont commencé à progresser à un rythme sans précédent, laissant derrière eux d’autres avancées technologiques, notamment dans des domaines tels que l’intelligence artificielle générative et les grands modèles linguistiques.

Il est prévu que cette situation aura un impact majeur sur les paradigmes et les solutions existantes et réduira l'efficacité des solutions traditionnelles d'intelligence artificielle, affaiblissant ainsi la compétitivité des fournisseurs de technologies proposant des solutions dans ce domaine.
Il est essentiel pour le mouvement technologique national d'utiliser efficacement l'intelligence artificielle productive en Turquie et de disposer d'un écosystème qui développe ces technologies et gagne en indépendance vis-à-vis de l'étranger dans son domaine, au cas où les grandes entreprises technologiques mondiales monopoliseraient les solutions qu'elles développent et fabriquent d'autres. pays dépendants de ce domaine.

RESSOURCE TURQUE EN INTELLIGENCE ARTIFICIELLE LIMITÉE

La langue source utilisée par l’intelligence artificielle est également vitale en termes d’impact culturel. Le risque que les modèles linguistiques contiennent des biais et que des préjugés étrangers puissent pénétrer dans la culture à travers ces modèles augmente l’importance des études sur cette technologie.

Lors de la formation de grands modèles linguistiques largement utilisés dans le monde, le fait de ne pas inclure suffisamment de turc est considéré comme l'un des risques importants. Bien que le turc ne trouve pas de place parmi les 16 premières langues dans le modèle de Meta, les ressources turques ne sont utilisées qu'à hauteur de 0,16 % dans la formation du modèle OpenAI.

Il est à noter que les codes écrits dans Chat GPT proviennent pour la plupart de langues anglo-saxonnes, et la vision du monde de cette culture est présentée aux utilisateurs dans les réponses apportées par l'intelligence artificielle et les informations qu'elle fournit.

Par conséquent, l'interaction des enfants avec ces modèles linguistiques comporte le risque d'être initiés à de nombreux éléments qui ne sont pas inclus dans la culture, les coutumes et les traditions turques et de devenir partie intégrante d'une dégénérescence culturelle.

LE MODÈLE DE TÜBİTAK AMÉLIORERA LE VOCABULAIRE DE L'INTELLIGENCE ARTIFICIELLE

À ce stade, le « modèle de langue majeure turque », étudié par TÜBİTAK BİLGEM, revêt une importance stratégique. L'institution se distingue des autres comme la première et la seule institution à avoir développé un « modèle de base » dans ce domaine.

Ainsi, un modèle qui non seulement parle bien le turc, mais qui porte également la culture et les sensibilités turques, est en cours de préparation.

Un modèle de base est défini dans le domaine de l'intelligence artificielle comme un modèle qui a été pré-entraîné sur un grand ensemble de données et qui a appris la structure générale du langage et la façon dont les mots et les phrases sont utilisés.
Ce modèle est formé sur des données qui incluent une large couverture d'une langue spécifique ou de plusieurs langues. Par exemple, un modèle de base turc peut être formé avec des données comprenant des textes, des livres, des articles et bien plus encore trouvés sur Internet, tandis qu'au cours de ce processus de formation, le modèle enrichit son vocabulaire en apprenant les règles de base de la langue et de la grammaire.

Grâce au « grand modèle linguistique turc », l'intelligence artificielle, qui sera enrichie de données turques, y compris les coutumes et traditions turques, maîtrisera les sensibilités turques et contribuera à prévenir la dégénérescence culturelle qui pourrait survenir chez la jeune génération avec les nouvelles technologies et applications.

Un « TOKENIZER » SPÉCIFIQUE TURC A ÉTÉ DÉVELOPPÉ

Afin de développer le modèle linguistique turc, les efforts visant à créer un pool de données avec des textes turcs collectés sur Internet et des sources numériques se poursuivent.

Dans le cadre de ce projet, des travaux sont menés sur de grands modèles de langage open source. Pour créer un modèle de langue turque de haute qualité, une phase de prétraitement a été réalisée, prenant en compte les subtilités du turc, et l'architecture d'apprentissage en profondeur appropriée a été sélectionnée.

En outre, un « tokenizer » spécifique au turc a été développé, permettant une utilisation efficace de ces grands modèles linguistiques open source en turc. Après avoir déterminé le nombre de paramètres de cette architecture et le ratio de données à utiliser, la formation du modèle a commencé.

Bien que le processus de formation soit étroitement surveillé dans le cadre des études, l'accent est mis sur l'optimisation du modèle en l'évaluant avec différentes mesures de réussite dans différents domaines de traitement du langage naturel (tels que question/réponse, résumé, génération de langage, classification de texte).

Avec les mesures prises, l'objectif est que l'intelligence artificielle, dont la langue turque est développée et connaît les sensibilités de la Turquie, contribue également à prévenir la corruption culturelle qui peut survenir chez la jeune génération.