CDL2023: Les corpus pour la didactique des langues - Corpora in language didactics |
Submission link | https://easychair.org/conferences/?conf=cdl2023 |
CORPUS : appel à communications
Les corpus pour la didactique des langues : de la formation des enseignants à l'élaboration de systèmes automatiques
Simona Ruggia, CNRS, BCL, UMR 7320, Université Côte d’Azur
Thomas Gaillat, LIDILE EA 3874, Université de Rennes 2
L’apprentissage des langues étrangères et les méthodes employées dans l’enseignement des langues connaissent aujourd’hui une véritable révolution numérique. Du fait de l'accessibilité et de l’ubiquité des données, de nombreuses expérimentations sont mises en place afin de confronter les apprenants aux langues cibles. Les données linguistiques organisées en corpus permettent de mettre en regard formes et contextes afin de favoriser la réflexion métalinguistique nécessaire au processus d’acquisition. Dans ce sens, les recherches en didactique ont multiplié les usages de corpus, et notamment Fligelstone (1993) en a distingué trois : le « teaching about », le « exploiting to teach » et le « teaching to exploit ». Pour chaque type d’usage, le corpus acquiert un rôle différent. Dans le premier, le corpus est un « objet d’enseignement » (Cavalla, Loiseau, 2013 : 2), ce qui correspond à « l’enseignement de la linguistique de corpus ou de sa méthodologie » (Ib.), dans le deuxième il est un « support d’enseignement » (Ib.), autrement dit cela « correspond à l’enseignement de l’usage du corpus : quelles requêtes faire ? dans quelle situation en fonction du système d’interrogation disponible ? » (Ib.). Le troisième usage consiste à « exploiter les corpus et l’interprétation des résultats pour enseigner une langue » (Ib.). Un quatrième usage a ensuite été défini par Renouf (1997) : le « teaching to establish resources » pour former à la création de corpus.
La notion de corpus s’est élargie dans la lignée de la linguistique de corpus à travers des expérimentations d’utilisation de corpus en classe de langue. Dans cette optique, le corpus est devenu un objet d’apprentissage pour l’apprenant, selon l’approche définie « data-driven learning » par Johns (par ex. 1988 ; Johns & King, 1991) qui mobilise des stratégies de découverte en développant la méta-compétence « apprendre à apprendre » (Holec, 1990). Selon cette approche, transposée en français « apprentissage sur corpus » (ASC) et développée notamment par Boulton et Tyne, « l’apprenant est amené à mettre à profit ses différentes observations de la langue à partir de données qui se présentent sous forme de corpus […] » (2014 : 6).
La perspective acquisitionnelle comprend aussi la question de l’analyse automatique de la langue pour l’élaboration de systèmes intelligents d’aide à l’apprentissage ou « intelligent Computer-aided Language Learning » (iCALL) (Swartz & Yazdani, 2012). Au cours de la dernière décennie, les méthodes d’apprentissage automatique ont ouvert la voie au développement d’outils de prise en charge de la langue d’apprenants. Ces outils reposent sur l’exploitation de corpus mêlant traitement automatique et modélisation (Meurers, 2012). Les corpus et le TAL se combinent pour l’analyse de la langue d’apprenants (Díaz-Negrillo et al., 2013). Les objectifs sont multiples allant de la détection d’erreurs à la classification par niveaux de compétence, et ont été repris dans le cadre de compétitions dites « shared-tasks » (Ballier et al., 2020, Settles et al., 2018). Ces outils permettent la production de données linguistiques de tout type (mesures textuelles, annotations linguistiques, etc.), véritable sous-ensemble des données transitant sur les plateformes d’apprentissage. Les corpus sont à la source du développement prochain des « learning analytics » en langue étrangère.
Dans ce numéro de Corpus nous souhaitons faire un état des lieux des usages et exploitations des corpus dans le cadre de l’enseignement/apprentissage des langues étrangères et plus particulièrement de deux usages des corpus qui semblent se détacher en fonction des publics concernés par leur exploitation. Pour les futurs enseignants en langues étrangères, les corpus sont un outil privilégié d’analyse mais aussi de formation. Pour les apprenants de langues, les corpus, et notamment les corpus d’apprenants, sont la source d'analyses comparatives quantitavies et automatisées des usages. Leur exploitation en situation d’apprentissage peut reposer sur des méthodes d’analyse des données textuelles, de linguistique de corpus et de TAL.
Deux axes seront privilégiés pour le numéro :
Axe 1 : Les études portant sur l’exploitation de corpus pour la formation d’enseignants de langues
-
La réflexion épistémologique sur les typologies des corpus numériques pour la formation de futurs enseignants.
-
Les apports des corpus numériques pour l’enseignement/apprentissage de compétences ciblées.
-
Les méthodes et les outils pour explorer les corpus.
Axe 2 : Les études relatives à l’exploitation de corpus dans les dispositifs et systèmes d’apprentissage.
-
Les outils de requêtes et de visualisation dans le cadre de situation d’apprentissage
-
Les outils d’analyse automatique des productions d’apprenants permettant l’élaboration de feedback et/ou la prédiction de niveau de compétence.
-
Les outils de constitution de jeux de données enrichies pour l’étude des L2 (extraction automatique de formes linguistiques, mesures de la complexité linguistique).
-
Les méthodes de modélisation des productions d’apprenants pour des tâches telles que l’analyse d’erreur et la classification par niveau.
-
La réflexion épistémologique sur l’utilisation des données d’apprenants dans des systèmes automatisés.
Bibliographie indicative
BALLIER N., CANU S., PETITJEAN C., GASSO G., BALHANA C., ALEXOPOULU T., & GAILLAT T., (2020), « Machine learning for learner English », International Journal of Learner Corpus Research, 6(1), 72-103.
BOULTON A., TYNE H., (2014), Des documents authentiques aux corpus. Démarches pour l’apprentissage des langues, Paris, Didier.
CAVALLA C., (2019), « Comment former les étudiants de Master FLE à l’utilisation pédagogique des corpus numériques ? », in Goes J., Meneses-Lerin L., Mangiante J.M., Olmo F., Pineira-Tresmontant C., Apports et limites des corpus numériques en analyse de discours et didactique des langues de spécialité, Editura Universitaria, 79-92, 978-606-14-1550-2. hal-02534091.
CAVALLA C., LOISEAU M., (2013), « Scientext comme corpus pour l’enseignement », in Tutin A., Grossman F., (dir.), L’écrit scientifique : du lexique au discours. Autour de Scientext, Rennes, PUR, 163-182.
DIAZ-NEGRILLO A., BALLIER N., & THOMPSON P., (eds.), (2013), Automatic treatment and analysis of learner corpus data. John Benjamins Publishing Co.
FLIGELSTONE S., (1993), « Some reflections on the question of teaching, from a corpus linguistics perspective », ICAME journal, 17, 87-109.
JOHNS T., (1988), « Implications et applications des logiciels de concordance dans la salle de classe », Les langues modernes, 82/5, 29-45.
JOHNS T., KING P., (eds.), (1991), « Classroom Concordancing », English Language Research Journal, 4, 47-61.
MEURERS D., (2012), « Natural Language Processing and Language Learning », in Chapelle C.A. (ed.), The Encyclopedia of Applied Linguistics, 4193-4205, Blackwell Publishing Ltd.
RENOUF A., (1997), « Teaching corpus linguistics to teachers of English », in Wichmann A., Fligelstone S., Mcenery T., Knowles G., (dir.), Teaching and language corpora, Harlow, Addison Wesley Longman, 255-266.
RUGGIA S., (2021), « La lecture contrôlée et assistée par l’analyse statistique des données textuelles : comment et pourquoi interroger un corpus numérique ? », Le français dans le monde, Recherches et Applications, « Langues et pratiques numériques : nouveaux repères et nouvelles littératies en didactique des langues ? », janvier, 69, 84-100.
SETTLES B., BRUST C., GUSTAFSON E., HAGIWARA M., & MADNANI N., (2018), « Second Language Acquisition Modeling », Proceedings of the Thirteenth Workshop on Innovative Use of NLP for Building Educational Applications, 56-65. http://aclweb.org/anthology/W18-0506
SWARTZ M.L., & YAZDANI M., (2012), Intelligent Tutoring Systems for Foreign Language Learning: The Bridge to International Communication (1st ed.), Springer Publishing Company, Incorporated.
La soumission se fait en deux temps
1. Proposition de contributions : résumé de 500 mots, bibliographie non comprise
à envoyer à : Simona.Ruggia@univ-cotedazur.fr et thomas.gaillat@univ-rennes2.fr
- date limite : 31 octobre 2021
- notification : 15 décembre 2021
2. Soumission des articles :
langue : français ou anglais
taille des articles : entre 25.000 et 35.000 signes espaces compris
format .doc ou .dot, minimalement mis en forme (times new roman 12, titres apparents, citations apparentes, etc.)
à envoyer à : Simona.Ruggia@univ-cotedazur.fr et thomas.gaillat@univ-rennes2.fr
- date limite : 31 mars 2022
- notification : 31 mai 2022
CORPUS : call for submission (2023)
Corpora in language didactics : from teacher training to the design of ICALL systems.
Simona Ruggia, CNRS, BCL, UMR 7320, Université Côte d’Azur
Thomas Gaillat, LIDILE EA 3874, Université de Rennes 2
Today’s foreign language teaching methods are undergoing a real digital revolution. Due to the accessibility and ubiquity of data, many learning experiments are put in place in order to expose learners to their target languages and collect their data. Among these, linguistic data are organised as corpora and support form-context comparisons which favour the necessary metalinguistic reflection for language acquisition.
Research studies in didactics have shown multiple ways of using corpora. Fligelstone (1993) distinguished three of them, i.e. teaching about, exploiting to teach and teaching to exploit. Corpora play a different role in each type of use. In the first case, corpora are what is being taught (Cavalla, Loiseau, 2013 : 2). This corresponds to teaching corpus linguistics or its methodology (Ib.). In the second case, corpora are part of the teaching material (Ib.). In other words the focus is on how to use a corpus, e.g. which queries to apply? In which case depending on the query system being used (Ib.). The third case consists in using corpora and query results in order to teach a language (Ib.). One extra case, subsequently defined by Renouf (1997), corresponds to teaching to establish resources (1997) as part of corpus design and collection protocols.
Following the steps of corpus linguistics, the notion of a corpus has been extended with experiments involving corpus use in foreign language classes. Corpora have become part of curricula as part of data driven learning approaches (Johns 1988; Johns & King, 1991). This type of approaches implies learning strategies based on discovery and they foster the learning-to-learn meta-skill (Holec, 1990). In corpus-based learning (Boulton and Tyne 2014), the learner takes advantage of the many different observations made from corpus data (Ib. : 6).
The question of language learning also includes automated language analysis in the context of designing Intelligent Tutoring systems or intelligent Computer-aided Language Learning (iCALL) systems (Swartz & Yazdani, 2012). Over the last decade, machine learning methods have paved the way for the development of new tools for the analysis of learner language. These tools rely on the exploitation of corpora with NLP and statistical modelling techniques (Meurers, 2012). Corpora and NLP are combined for the analysis of learner language (Díaz-Negrillo et al., 2013) as part of many different tasks, e.g. error detection or proficiency level classification. Some of these tasks have been at the core of data competitions known as “shared tasks” (Ballier et al., 2020, Settles et al., 2018). The tools foster the production of linguistic data of different types such as textual metrics and annotations. They are part of the mass data that are found on learning platforms. The domain of learning analytics in language learning will partly stem from corpora.
In this issue we would like to take stock on how corpora are used and exploited as part of foreign language teaching/learning practices. We are particularly interested in two types of uses depending on the target audiences in terms of exploitation. For future language teachers, corpora are an essential tool for analysis and also training. For language learners, corpora, and more specifically learner corpora, may support quantitative and automated comparative analyses in terms of usage. Their exploitation relies on NLP techniques developed as part as tutoring systems.
This issue of Corpus will focus on two domains.
Domain 1: Studies about the exploitation of corpora in the context of language teachers’ training.
-
Epistemological reflection of corpus typologies for future teacher training programmes.
-
The benefits of corpora in teaching/learning specific skills.
-
Methods and tools for corpus exploration.
Domain 2: Studies related to the exploitation of corpora in language learning systems.
-
Corpus visualisation and query tools used in learning contexts.
-
Tools focused on the automatic analysis of learner language which provide feedback and/or predict proficiency levels.
-
Tools for the creation of richly annotated data sets for the study of L2s (form extraction, complexity metrics, annotation)
-
Modelling approaches applied to learner language in tasks such as, and not limited to, error detection or proficiency identification.
-
Epistemological reflection on the use of learner data in automated systems.
References
BALLIER N., CANU S., PETITJEAN C., GASSO G., BALHANA C., ALEXOPOULU T., & GAILLAT T., (2020), “Machine learning for learner English”, International Journal of Learner Corpus Research, 6(1), 72-103.
BOULTON A., TYNE H., (2014), Des documents authentiques aux corpus. Démarches pour l’apprentissage des langues, Paris, Didier.
CAVALLA C., (2019), “Comment former les étudiants de Master FLE à l’utilisation pédagogique des corpus numériques ?”, in Goes J., Meneses-Lerin L., Mangiante J.M., Olmo F., Pineira-Tresmontant C., Apports et limites des corpus numériques en analyse de discours et didactique des langues de spécialité, Editura Universitaria, 79-92, 978-606-14-1550-2. hal-02534091.
CAVALLA C., LOISEAU M., (2013), “Scientext comme corpus pour l’enseignement”, in Tutin A., Grossman F., (Eds.), L’écrit scientifique : du lexique au discours. Autour de Scientext, Rennes, PUR, 163-182.
DIAZ-NEGRILLO A., BALLIER N., & THOMPSON P., (Eds.), (2013), Automatic treatment and analysis of learner corpus data. John Benjamins Publishing Co.
FLIGELSTONE S., (1993), “Some reflections on the question of teaching, from a corpus linguistics perspective”, ICAME journal, 17, 87-109.
JOHNS T., (1988), “Implications et applications des logiciels de concordance dans la salle de classe”, Les langues modernes, 82/5, 29-45.
JOHNS T., KING P., (eds.), (1991), “Classroom Concordancing”, English Language Research Journal, 4, 47-61.
MEURERS D., (2012), “Natural Language Processing and Language Learning”, in Chapelle C.A. (Ed.), The Encyclopedia of Applied Linguistics, 4193-4205, Blackwell Publishing Ltd.
RENOUF A., (1997), “Teaching corpus linguistics to teachers of English”, in Wichmann A., Fligelstone S., Mcenery T., Knowles G., (Eds.), Teaching and language corpora, Harlow, Addison Wesley Longman, 255-266.
RUGGIA S., (2021), “La lecture contrôlée et assistée par l’analyse statistique des données textuelles : comment et pourquoi interroger un corpus numérique ?”, Le français dans le monde, Recherches et Applications, “Langues et pratiques numériques : nouveaux repères et nouvelles littératies en didactique des langues ?”, January, 69, 84-100.
SETTLES B., BRUST C., GUSTAFSON E., HAGIWARA M., & MADNANI N., (2018), “Second Language Acquisition Modeling”, Proceedings of the Thirteenth Workshop on Innovative Use of NLP for Building Educational Applications, 56-65. http://aclweb.org/anthology/W18-0506
SWARTZ M.L., & YAZDANI M., (2012), Intelligent Tutoring Systems for Foreign Language Learning: The Bridge to International Communication (1st ed.), Springer Publishing Company, Incorporated.
The submission process (French or English) will follow two stages:
1. Proposal for articles: 500 word abstracts, excluding references
to be sent to: Simona.Ruggia@univ-cotedazur.fr et thomas.gaillat@univ-rennes2.fr
- deadline : 31 October 2021
- notification : 15 December 2021
2. Full paper submissions:
Article length: between 25,000 et 35,000 signs including spaces.
.doc or .dot file format, minimal page formating (times new roman 12, clear headings, clear citations, etc.)
to be sent to : Simona.Ruggia@univ-cotedazur.fr et thomas.gaillat@univ-rennes2.fr
- notification : 31 May 2022