La 6ème Biennale

Contribution longue recherchée

Atelier : En quoi la 'maîtrise' de l'information est-elle au service de la connaissance ?


Titre : RAFALES (Recueil Automatique Favorisant l'Acquisition d'une Langue Etrangère de Spécialité) tuteur intelligent modélisant les connaissances de l'élève et du domaine et opérationnalisant la zone proximale de développement
Auteurs : ZAMPA Virginie

Texte :

ZAMPA Virginie

Laboratoire des Sciences de l’Education, BP 47, 38040 Grenoble cedex 9

RAFALES :

(Recueil Automatique Favorisant l'Acquisition d'une Langue Etrangère de Spécialité)

tuteur intelligent modélisant les connaissances de l'élève et du domaine et opérationnalisant la zone proximale de développement

Mots-clés : : LSA, modélisation, acquisition en langue, tuteur intelligent, proximité optimale d’acquisition.

Résumé

Le travail que nous présentons retrace toute les étapes de la création d’un tuteur intelligent d’acquisition d’une langue : de la modélisation à l’expérimentation didactique. Ce logiciel nommé RAFALES utilise LSA (Latent Semantic Analysis) dans chacun de ses modules : modélisation des connaissances du domaine, modélisation des connaissances de l’apprenant et définition de la POA (proximité optimale d’acquisition) qui correspond à une opérationnalisation de la zone proximale de développement.

Introduction

Ce travail se situe au carrefour de deux disciplines : les sciences de l’éducation et l’informatique, plus particulièrement le domaine des EIAH (Environnement Interactif d’Apprentissage Humain). Nous allons ainsi détailler notre prototype nommé RAFALES (Recueil Automatique Favorisant l’Acquisition d’une Langue Etrangère de Spécialité), nous présenterons LSA (Latent Semantic Analysis) qui permet de modéliser les trois modules de notre tuteur intelligent dans un seul et même formalisme, puis nous commenterons son expérimentation.

LSA

LSA a été créé par les laboratoires Bellcores en 1989. Au début il s’agissait d’un outil d’aide à la recherche documentaire (Deerwerster et al., 1990), mais très rapidement son usage est devenu très varié allant du filtrage d’information (Foltz et Dumais, 1992) à l’évaluation automatique de copies (Foltz, 1996 ; Wolf, 1998, Wiemer-Hasting, 2001 ; Lemaire et Dessus, 2001) en passant par la modélisation de l’acquisition (Landauer et Dumais, 1997), des stratégies d’apprentissage (Lemaire, 1999) et des connaissances de l’apprenant (Zampa et Lemaire, 2002 ; Zampa et Raby, 2001).

LSA permet de calculer des proximités sémantiques entre des textes de manière totalement automatique. Pour cela LSA analyse un large corpus de textes ; la seule intervention humaine réside dans la réalisation de ce corpus : il s’agit de choisir des textes et de les concaténer afin d’obtenir un corpus “brut”. LSA fabrique une matrice indiquant le nombre de fois ou chaque mot est présent dans chaque paragraphe. Les lignes de la matrice correspondent aux paragraphes et les colonnes aux mots différents. Par exemple si le corpus contient 2000 mots différents répartis dans 250 paragraphes nous obtiendrons une matrice 250x2000, et la cellule

Mi,j correspondra au nombre de fois où le jème mot est présent dans le ième paragraphe.

Puis cette matrice est réduite par le biais d’une analyse statistique proche d’une ACP (Analyses en Composantes Principales), c’est cette réduction qui permet d’obtenir les proximités sémantiques. Ces proximités sémantiques sont déduites des contextes dans lesquels les mots apparaissent ; deux mots peuvent êtres considérés comme proches sans pour autant apparaître dans le même paragraphe.

Suite à cette analyse, tous les mots, tous les paragraphes, tous les textes sont représenter par un vecteur dans un espace à environ 300 dimensions. La proximité sémantique entre deux textes correspond à la valeur du cosinus de l’angle que forment leurs vecteurs dans cet espace multidimensionnel.

RAFALES

Le prototype RAFALES (Recueil Favorisant l’Acquisition d’une Langue Etrangère de Spécialité), que nous avons implémenté, a pour but d’optimiser, c’est à dire d’accélérer et de “cibler”, l’acquisition de connaissances, en particulier au niveau du vocabulaire, dans une langue étrangère de spécialité. Lors de l’utilisation de notre prototype, la tâche de l’apprenant se limite à un travail de lecture. En effet, nous nous appuyons sur les travaux de Krashen (1998) qui avance l’idée que l’acquisition d’une seconde langue est essentiellement due à l’exposition à la langue, ainsi que sur des travaux en psychologie cognitive qui montrent que la majorité des mots sont acquis par la lecture (Landauer & Dumais 1997).

Nous pensons que le processus d’acquisition peut être accéléré en sélectionnant les textes les mieux adaptés, c’est à dire ceux qui tiennent compte à la fois des connaissances du sujets et des connaissances du domaine. Le problème est donc de définir quel est le texte qui a la plus grande chance d’élargir l’espace sémantique de l’apprenant. Si l’on se réfère aux travaux de Vygotsky (1997), on constate que si les textes que le prototype fournit à l’apprenant sont trop proches ou trop éloignés de ce qu’il connaît déjà il n’acquérra que peu de connaissance. Il faut donc mesurer cette distance optimale et ainsi définir avec LSA une Proximité Optimale d’Acquisition (POA).

Le prototype

RAFALES est un tuteur intelligent. Il comporte les trois modules définis par Wenger (1987) : la base de connaissances du domaine, la base de connaissances de l’élève, ou modèle de l’élève, et le module pédagogique. Pour modéliser ces trois parties nous avons utilisé LSA. Dans RAFALES, ces modules interagissent de la manière suivante : le module pédagogique sélectionne, en tenant compte du modèle de l’élève, dans le module de connaissances du domaine, les textes les mieux adaptés à l’apprenant et les lui fournit.

L’expérimentation

Pour valider notre prototype nous avons réalisé une expérimentation sur quarante-trois sujets issus de licences et maîtrises Langues Etrangères Appliquées et de stagiaires de l’IUFM. Une autre partie de l’expérimentation a consisté à faire passer les tests de vocabulaire à vingt-cinq experts du domaine.

Les hypothèses

  • l’acquisition est optimale quand les sujets lisent les textes de la POA ;
  • LSA permet de fabriquer un modèle de l’apprenant qui peut être testé.

A travers notre expérimentation nous essayons de valider plusieurs hypothèses :

Il existe une autre hypothèse à valider avec les réponses données par les experts du domaine :

Les réponses données par LSA aux tests de vocabulaires sont similaires à celles données par les experts.

Le plan d’expérience

Pour valider nos hypothèses, notre plan d’expérience comporte une variable dépendante, acquisition du vocabulaire, qui correspond à l’évolution de l’écart des réponses entre le sujet et la moyenne des experts entre le pré et le post test. La variable indépendante intergroupe correspond à la distance sémantique entre les connaissances du sujet et les textes qui lui sont fournis, elle comporte quatre modalités : éloignés, proches, aléatoire et POA (Proximité Optimale d’Acquisition) c’est à dire ni trop proche ni trop éloigné de ses connaissances. Nous avons contrôlé l’homogénéité des groupes en répartissant les sujets de licence et maîtrise en fonction de leur note aux examens précédents et les stagiaires IUFM en fonction de leur classement au C.A.P.E.S. Nous avons aussi unifié le nombre de mots lus par chaque sujet à chaque séance.

Le déroulement de l’expérimentation

L’expérimentation s’est déroulée en cinq séances. A chaque séance les sujets passent un test de vocabulaire puis lisent les textes qui leur sont proposés, puis repassent le même test de vocabulaire. Au total il y a cinq tests : un par séance. Ces tests nous permettent d’évaluer l’effet des lectures sur l’acquisition des mots.

La base de connaissances du domaine

Pour expérimenter notre prototype nous avons choisi, comme langue de spécialité, l’anglais juridique et plus particulièrement le droit constitutionnel américain. Notre base de connaissance du domaine contient 1 013 174 mots répartis dans huit œuvres complètes pour la base de connaissances en anglais “général” et 1 123 362 mots répartis dans six cents soixante dix sept textes, pour la partie base de connaissances de la langue de spécialité.

La base de connaissances de l’apprenant

Le modèle de l’élève est initialisé avec des textes de la langue étrangère générale ; nous estimons qu’un élève de second cycle a déjà été exposé à environ 1 000 000 de mots de la langue étrangère au cours de sa scolarité.

Au fur et à mesure des séances, ce modèle est mis à jour en le complétant avec les textes lus par le sujet.

Les tests de vocabulaire

Chacun des cinq tests est formé de trente tableaux comme ceux présentés dans la consigne de début (cf annexe), comportant chacun cinq couples de mots. Les mots peuvent appartenir à la langue générale, à la langue de spécialité ou aux deux. Il n’existe pas une réponse “vraie”, les réponses sont subjectives, il s’agit de donner la proximité sémantique entre deux mots.

Conclusion

Ce travail relève d’une recherche fondamentale sur les processus d’acquisition d’une langue étrangère. Nous avons conçu, développé et expérimenté notre prototype afin de valider nos hypothèses théoriques et didactiques. Cette expérimentation est actuellement en cours d’analyse. Nous ne pouvons donc pour l’instant donner les résultats, mais les premières analyses semblent encourageantes.

Bibliographie (revoir la forme / critère apa)

Deerwester, S.T.; Dumais, G.W.; Launder, T.K.; Harshmann, R. (1990). Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science 41, 391-407.

Foltz, P.W. (1996). Latent Semantic Analysis for Text-Based Research. Behavior Research Methods, Instruments & Computers 28.2, 197-202.

Foltz, P.W.; Dumais, S.T.(1992). Personalized Information Delivery : An Analysis of Information Filtering Methods. Communications of the ACM 35 (12), 51-60.

Krashen, S (1985).The Input Hyptothesis : Issues and Implications. London: Longman.

Landauer, T.K., Dumais, S.T. (1997).A Solution to Plato's Problem : The Latent Semantic Analysis Theory of the Acquisition, Induction, and Representation of Knowledge.

Psychological Review 104 (2), 211-40.

Lemaire, B. (1999). Tutoring System Based on Latent Semantic Analysis. In S.P. Lajoie and M. Vivet (Eds). Artificial Intelligence in EDucation (Proceedings of the AIED’99 conference). (pp. 527-34). Le Mans: IOS Press.

Lemaire, B., Dessus, P. (2001). A System to Assess the Semantic Contend of Student Essays.

Journal of Educational Computing Research 24/3, 305-318.

Vygotsky, L.S. (1997). Pensée et Langage, (3eme ed.). Paris : La dispute.

Wenger, E. (1987). Artificial Intelligence and Tutoring Systems. Morgan Kaufman,.

Wiemer-Hastings, P. Wiemer-Hastings, K et Graesser, A.C. (1999). Improving an intelligent tutor's comprehension of students with Latent Semantic Analysis, In S.P. Lajoie, M. Vivet (Eds) Artificial Intelligence in EDucation (Proceedings of the AIED'99 Conference). (pp. 535-542). Le Mans : IOS Press.

Wolfe, M.B.W, Schreiner, M.E, Rehder, B., Laham, D., Foltz, P.W., Kintsch, W., Landauer, T.K. (1998). Learning from Text : Matching Readers and Texts by Latent Semantic Analysis.

Discourse Processes 25, 337-354.

Zampa, V. Lemaire, B. (2002). Latent Semantic Analysis for Student Modeling. Journal of intelligent Information Systems, special issue on Education applications. 18(1), 15-30

Zampa, V. Raby, F. (2001). Entre modèle et outil pour l’acquisition de la langue de spécialité : Le prototype R.A.F.A.L.E.S. (Recueil Automatique Favorisant l’Acquisition d’une Langue Etrangère de Spécialité). Asp (Anglais de SPécialité), 31-33, 163-179.


Annexe 1

Nous allons vous fournir une série de mots cibles. Pour chacun d’eux nous vous donnerons une liste de 5 mots et vous devrez indiquer le type de relation qui les unie au mot cible. Il y a quatre types de relation : même sens, sens contraire, mot d’un même domaine, et pas de relation.

Vous pouvez aussi signaler que vous ne connaissez pas le mot en cochant la case “mot inconnu”.

Pour chacune des relations de même sens, même domaine et sens contraire, que vous aurez pu établir, vous voudrez bien juger aussi de sa force ( + pour une relation forte ou – pour une relation faible).

Attention : Pour chacun des mots de la liste vous ne devez cocher qu’une seule case.

Exemples

réussir
Même sens
Même domaine
Sens contraire
Pas de relation
Mot inconnu
+
-
+
-
+
-
X
ascaridiose
erreur
X
échouer
X
examen
X
eau
X

réussir
Même sens
Même domaine
Sens contraire
Pas de relation
Mot inconnu
+
-
+
-
+
-
bande dessinée
X
écrivain
X
bouquin
X
illustrateur
X
disserter
X

Pour chaque mot nous vous fournirons un tableau tel que ceux ci-dessus que vous devrez remplir (faites une croix pour donner votre réponse).

Remarque : Les relations sont indépendantes de la nature grammaticale (verbe, nom, adjectif, etc.) des mots.



Menu