Lo projècte BaTelÒc

La basa textuala occitana BaTelÒc es desvolopada dins lo laboratòri de linguistica CLLE-ERSS, Unitat Mixta de Recèrca del CNRS e de l'Universitat de Tolosa Joan Jaurés (Campus del Miralh), jos la direccion de Myriam Bras.

BaTelÒc recampa d'òbras escrichas de mai d'un genre (roman, teatre, poësia, conte, premsa...) del sègle XIXen a l'ora d'ara. Aculhís la variacion grafica e dialectala. L'estructuracion de la basa e l'encodatge dels tèxtes segon los formats estandards de constitucion e de difusion de còrpus (format xml, nòrma TEI P5). La basa aculhís regularament de tèxtes novèls. La tòca es de far créisser l'ensemble de las donadas ja a posita pel domèni occitan en recampant d'òbras escrichas de las epòcas contemporanèa e modèrna, despartidas en genres variats, e representativas de la diversitat dels dialèctes e de las grafias.

L'accès a aquelas donadas es essencial pels estudis linguistics – que sián lexicals, morfologics, sintactics, semantics o discursius ; pels trabalhs en lexicografia – ont son necitas per bastir un diccionari general de la lenga occitana ; per las recèrcas en literatura, en scienças umanas, en didactica e per l'ensenhament de la lenga. Dins un asuèlh pus larg, l'existéncia d'una basa de tèxtes occitans permet de valorizar lo patrimòni occitan e d'afortir la preséncia de la lenga occitana sul oèb.

BaTelÒc a pas per tòca de prepausar un còrpus de referéncia de l'occitan, mas de porgir als utilizadors un ensemble de tèxtes pro larg per que cadun i pòsca seleccionar los tèxtes que li permetran de se bastir son còrpus de trabalh. Prepausa una interfàcia de consultacion, o motor de cèrca. La cèrca simpla permet de cercar los contèxtes d'emplec d'un mot. La cèrca avancada permet de cercar los contèxtes d'emplec de formas (mots, partidas de mots e sequéncias de mots) dins lo còrpus de trabalh definit per la sesilha. L'interfàcia permet pas lo telecargament ni la lectura dels tèxtes complets.

Amiras e istoric

Lo projècte de bastir une basa textuala per la lenga occitana espeliguèt en 2006 dins lo laboratòri CLLE-ERSS a Tolosa amb l’amira de recampar d’òbras escrichas de mai d’un genre (roman, teatre, poësia, conte, premsa…) del sègle XIXen a l’ora d’ara e d’aculhir la variacion grafica e dialectala (Bras 2006). Causiguèrem de seguir lo modèl de la basa de tèxtes per la lenga francesa, Frantext, en estructurant la basa e en encodant los tèxtes segon los formats estandards de constitucion e de difusion de corpora (format xml, nòrma TEI P5).

Una primièra basa experimentala foguèt mesa en linha en 2008 amb 15 tèxtes fisats per IDECO. L'accès n'èra reservat als membres del projècte, l'amira èra de validar la fachabilitat del projècte (Bras e Thomas 2008, 2011). Puèi la basa aculhiguèt regularament de tèxtes novèls e desvolopèrem un motor de cèrca operacional.

Entre 2012 e 2014, recampèrem dos còrpus especifics dins l'encastre d'un trabalh conjunt amb los laboratòris PLH (literatura) e LISST (antropologia) : un còrpus d'autors de Roergue, e un còrpus de contes literaris.

Per la seguida, la tòca es de téner d’enriquesir la basa per fin de far créisser l’ensemble de las donadas a posita pel domèni occitan, en recampant d’òbras escrichas de las epòcas contemporanèa e modèrna, despartidas en genres variats, e representativas de la diversitat dels dialèctes e de las grafias.

L’accès a aquelas donadas es essencial pels estudis linguistics, que sián lexicals, morfologics, sintactics, semantics o discursius ; pels trabalhs en lexicografia, ont son necitas per bastir un diccionari general de la lenga occitana (Bras e Thomas 2007) ; per las recèrcas en literatura, en scienças umanas, en didactica e per l’ensenhament de la lenga. Dins un asuèlh pus larg, l’existéncia d'una basa de tèxtes occitans permet de valorizar lo patrimòni occitan e d’afortir la preséncia de la lenga occitana sul oèb.


Actualitat

Venèm de metre en linha la version operacionala de la basa amb 95 tèxtes (3,37 milions de mots) de 49 autors diferents. Los dialèctes dels autors son per ara lo lengadocian, lo provençau, lo gascon, l'auvernhàs, lo lemosin e lo vivaro-aupenc. Esperam tanben aculhir de tèxtes en niçarte e dins lo parlar del creissent. Los tèxtes recampats dins la basa son escriches siá en grafia classica, siá en grafia mistralenca, siá dins una grafia mai personala, e se despartisson en genres variats (roman, conte, memòris e cronicas, novèlas, ensag, poesia, ….).
Se pòt navegar dins BaTelòc mercés a una interfàcia de consultacion, o motor de cèrca. La cèrca simpla permet de cercar los contèxtes d'emplec d'un mot. La cèrca avancada permet de cercar los contèxtes d'emplec de formas (mots, partidas de mots e sequéncias de mots) dins lo còrpus de trabalh definit per la cesilha.

Una basa per totes

BaTelÒc se vòl una basa dubèrta que pòsca aculhir quina òbra que siá sens condicion de grafia o de varietat de lenga. A pas per tòca de prepausar un còrpus de referéncia de l'occitan, mas de porgir als utilizadors un ensemble de tèxtes pro larg per que cadun i pòsca seleccionar los tèxtes que li permetran de se bastir son còrpus de trabalh. Lo projècte se vòl cooperatiu : cadun pòt venir contributor s’o vòl e prepausar de tèxtes per integrar dins BaTelÒc.

Dreches e credits

La basa BaTelÒc es mesa en linha dins lo respècte dels dreches d’autors e en acòrdi amb los editors partenaris que mercejam : IEO Edicions, Reclams, Lo Clusèl,  ADEO, Edicions dels Regionalismes.

Son tanben partenaris del projècte lo Congrès permanent de la lenga occitana, lo CIRDOC, lo GIDILOC e CIEL d'OC pel partatge d’unas ressorgas textualas. Grand mercés a eles.


BaTelÒc comencèt mercés al sosten de CLLE-ERSS, del CNRTL, de la DGLFLF e del CROM. Foguèt sostengut per la Region Miègjorn-Pirenèus e l'Universitat Tolosa Joan Jaurés per dos ans (2012-2014), e es ara sostengut per l’ANR  dins l'encastre del projècte RESTAURE (Ressorgas informaticas pel tractament automatic de las lengas regionalas, 2015-2018).

Lo projècte foguèt fondat per Myriam Bras e Jean Thomas. Ara la còla BaTelÒc a CLLE-ERSS es compausada de Myriam Bras, Marianne Vergez-Couret, Jean Sibille, Franck Sajous, Mai Ho-Dac, Jean Thomas. Doblidam pas los ancians collaborators (Marie-Paule Jacques, Carme Armentano i Oller), los contributors d’autres laboratòris (Joëlle Ginestet, PLH, e Josiane Bru, LISST), e totes los que nos an ajudats d'un biais o d'un autre (Benjamin Assié, Joan Bras, Joana Cassoudessalle, Eric Chaplaing, Benaset Dazeas, Tricio Dupuy,  Eric Gonzalez, Laurenç Gosset, Sèrgi Javaloyes, Gérard Ligozat, Felip Martel, Robèrt Marty, Maurici Romieu, Aura Seguièr, Domerg Sumien, Josiana Ubaud, Sèrgi Viaule).

Per nos ajudar

Podètz, se volètz, nos ajudar a completar la basa, en particulièr pels dialèctes, genres o grafias que son pas encara representats, en nos mandant de tèxtes, o en nos signalant un tèxte qu’i aimariatz trobar. Basta de nos escriure : bateloc<at>univ-tlse2.fr

Citar BaTelÒc

S'utilisatz de donadas de BaTelÒc per una comunicacion o una publicacion, vos mercejam de mençonar l'url del siti (a venir) e la referéncia (Bras & Vergez-Couret 2016) çai-jos.

Publicacions

Descripcion de la basa operacionala :

Bras, M. & Vergez-Couret, M. (2016). BaTelÒc: A text base for the Occitan language. In Vera Ferreira and Peter Bouda (eds.). Language Documentation and Conservation in Europe, pp. 133-149, Special Publication No. 9 of the Journal Language Documentation & Conservation, Honolulu: University of Hawai'i Press.

Descripcion de la basa experimentala :

Bras, M. & Thomas, J. (2011). "BaTelÒc : cap a una basa informatizada de tèxtes occitans". In A. Rieger (ed.) L’Occitanie invitée de l’Euregio. Liège 1981 - Aix-la-Chapelle 2008 Bilan et perspectives, Actes du IXème Congrès International de l'Association Internationale d'Etudes Occitanes, Aix-la-Chapelle, 24-31 août 2008, pp. 661-669, Aachen, Shaker.

Descripcion de l'utilitat d'una basa textuala per de projèctes lexicografics :

Bras, M., Thomas, J. (2007). "Diccionaris, corpora, e basas de donadas textualas", Linguistica Occitana, 5, pp.1-22.

Començança del projècte :

Bras, M. (2006). "Le projet TELOC : construction d'une base textuelle occitane", Langues et Cité : bulletin de l'observation des pratiques linguistiques, 8, Décembre 2006, p.9. 


Comunicacions

Bras, M., Sibille, J. Vergez-Couret, M. (2015). "Dire lo passat en occitan : entre descripcions e prescripcions de l'emplec del passat simple e dels passat compausat", 7en Obrador de Linguistica Occitana, München, 6-8 de julhet de 2015.

Bras, M., Vergez-Couret, M. (2014). « Annotation morphosyntaxique d'un corpus de textes occitans: l'expérience de BaTelÒc », XIè Congrès de l'Association Internationale d'Etudes Occitanes, Lhèida, 16-21 junh 2014.

Bras, M., Vergez-Couret, M. (2013). "BaTelÒc: a Text Base for the Occitan Language", ELE'2013 : International Conference on Endangered Languages in Europe, Minde, Portugal, 17-18 octobre 2013.

Bras, M., Thomas, J. (2008). " Batelòc : cap a una basa informatisada de tèxtes occitans ", IXème Congrès International de l'Association Internationale d'Etudes Occitanes, Aix-la-Chapelle 25-30 août 2008. Actes publiés en 2011 Angelica Rieger (ed.), Aachen : Shaker Verlag. 


Bras, M., Thomas, J. (2006). "Diccionaris e donadas linguisticas", 4en Obrador de Linguistica Occitana, Montpelhièr, 7 d'abrial de 2006.