Lo projècte BaTelÒc
La basa textuala occitana BaTelÒc es desvolopada dins lo laboratòri de linguistica CLLE-ERSS,
Unitat Mixta de Recèrca del CNRS e de l'Universitat de Tolosa Joan
Jaurés (Campus del Miralh), jos la direccion de Myriam Bras.
BaTelÒc recampa d'òbras escrichas de
mai d'un genre (roman, teatre, poësia, conte, premsa...) del sègle
XIXen a l'ora d'ara. Aculhís la variacion grafica e dialectala.
L'estructuracion de la basa e l'encodatge dels tèxtes segon los formats
estandards de constitucion e de difusion de còrpus (format xml, nòrma
TEI P5). La basa aculhís regularament de tèxtes novèls. La tòca es de
far créisser l'ensemble de las donadas ja a posita pel domèni occitan
en recampant d'òbras escrichas de las epòcas contemporanèa e modèrna,
despartidas en genres variats, e representativas de la diversitat dels
dialèctes e de las grafias.
L'accès a aquelas donadas es
essencial pels estudis linguistics – que sián lexicals, morfologics,
sintactics, semantics o discursius ; pels trabalhs en lexicografia –
ont son necitas per bastir un diccionari general de la lenga occitana ;
per las recèrcas en literatura, en scienças umanas, en didactica e per
l'ensenhament de la lenga. Dins un asuèlh pus larg, l'existéncia d'una
basa de tèxtes occitans permet de valorizar lo patrimòni occitan e
d'afortir la preséncia de la lenga occitana sul oèb.
BaTelÒc a pas per tòca de prepausar
un còrpus de referéncia de l'occitan, mas de porgir als utilizadors un
ensemble de tèxtes pro larg per que cadun i pòsca seleccionar los
tèxtes que li permetran de se bastir son còrpus de trabalh.
Prepausa una interfàcia de consultacion, o motor de cèrca. La cèrca
simpla permet de cercar los contèxtes d'emplec d'un mot. La cèrca
avancada permet de cercar los contèxtes d'emplec de formas (mots,
partidas de mots e sequéncias de mots) dins lo còrpus de trabalh
definit per la sesilha. L'interfàcia permet pas lo telecargament ni la
lectura dels tèxtes complets.
Amiras e istoric
Lo projècte de bastir une basa textuala per la lenga occitana
espeliguèt en 2006 dins lo laboratòri CLLE-ERSS a Tolosa amb l’amira de recampar d’òbras escrichas de mai
d’un genre (roman, teatre, poësia, conte, premsa…) del sègle XIXen a
l’ora d’ara e d’aculhir la variacion grafica e dialectala (Bras 2006).
Causiguèrem de seguir lo modèl de la basa de tèxtes per la lenga
francesa, Frantext, en
estructurant la basa e en encodant los tèxtes segon los formats
estandards de constitucion e de difusion de corpora (format xml, nòrma
TEI P5).
Una primièra basa experimentala foguèt mesa en linha en 2008 amb 15
tèxtes fisats per IDECO. L'accès n'èra reservat als membres del
projècte, l'amira èra de validar la fachabilitat del projècte (Bras e
Thomas 2008,
2011). Puèi la basa
aculhiguèt regularament de tèxtes novèls e desvolopèrem un motor de
cèrca operacional.
Entre 2012 e 2014, recampèrem dos còrpus especifics dins l'encastre
d'un trabalh conjunt amb los laboratòris PLH (literatura) e LISST
(antropologia) : un còrpus d'autors de Roergue, e un còrpus de contes
literaris.
Per la seguida, la tòca es de téner d’enriquesir la basa per fin de far créisser
l’ensemble de las donadas a posita pel domèni occitan, en recampant
d’òbras escrichas de las epòcas contemporanèa e modèrna, despartidas en
genres variats, e representativas de la diversitat dels dialèctes e de
las grafias.
L’accès a aquelas donadas es essencial pels estudis linguistics, que
sián lexicals, morfologics, sintactics, semantics o discursius ; pels
trabalhs en lexicografia, ont son necitas per bastir un diccionari
general de la lenga occitana (Bras e Thomas 2007) ; per las recèrcas en
literatura, en scienças umanas, en didactica e per l’ensenhament de la
lenga. Dins un asuèlh pus larg, l’existéncia d'una basa de tèxtes
occitans permet de valorizar lo patrimòni occitan e d’afortir la
preséncia de la lenga occitana sul oèb.
Actualitat
Venèm de metre en linha la
version operacionala de la basa amb 95 tèxtes (3,37 milions de
mots) de 49 autors diferents. Los dialèctes dels autors son per ara lo
lengadocian, lo provençau, lo gascon, l'auvernhàs, lo lemosin e lo
vivaro-aupenc. Esperam tanben aculhir de tèxtes en niçarte e dins lo
parlar del
creissent. Los tèxtes recampats dins la basa son escriches siá en
grafia
classica, siá en grafia mistralenca, siá dins una grafia mai
personala, e se despartisson en genres variats (roman, conte, memòris e
cronicas, novèlas, ensag, poesia, ….).
Se pòt navegar dins BaTelòc mercés a una interfàcia de consultacion,
o motor de cèrca. La cèrca simpla permet de cercar los contèxtes
d'emplec d'un mot. La cèrca avancada permet de cercar los contèxtes
d'emplec de formas (mots, partidas de mots e sequéncias de mots) dins
lo còrpus de trabalh definit per la cesilha.
Una basa per totes
BaTelÒc se vòl una basa dubèrta que
pòsca aculhir quina òbra que siá sens condicion de grafia o de varietat
de lenga. A pas per tòca de prepausar un còrpus de referéncia de
l'occitan, mas de porgir als utilizadors un ensemble de tèxtes pro larg
per que cadun i pòsca seleccionar los tèxtes que li permetran de se
bastir son còrpus de trabalh. Lo projècte se vòl cooperatiu : cadun pòt
venir contributor s’o vòl e prepausar de tèxtes per integrar dins
BaTelÒc.
Dreches e credits
BaTelÒc comencèt mercés al sosten de CLLE-ERSS, del CNRTL, de la DGLFLF
e del CROM. Foguèt sostengut per la Region Miègjorn-Pirenèus e
l'Universitat Tolosa Joan Jaurés per dos ans (2012-2014), e es ara
sostengut per l’ANR dins l'encastre del projècte
RESTAURE (Ressorgas informaticas pel tractament automatic de las lengas regionalas, 2015-2018).
Lo projècte foguèt fondat per Myriam Bras e Jean Thomas. Ara la còla
BaTelÒc a CLLE-ERSS es compausada de Myriam Bras, Marianne
Vergez-Couret, Jean Sibille, Franck Sajous, Mai Ho-Dac, Jean Thomas.
Doblidam pas los ancians collaborators (Marie-Paule Jacques, Carme
Armentano i Oller), los contributors d’autres laboratòris (Joëlle
Ginestet, PLH, e Josiane Bru, LISST), e totes los que nos an ajudats
d'un biais o d'un autre (Benjamin Assié, Joan Bras, Joana
Cassoudessalle, Eric Chaplaing, Benaset Dazeas, Tricio Dupuy,
Eric Gonzalez, Laurenç Gosset, Sèrgi Javaloyes, Gérard Ligozat, Felip Martel, Robèrt Marty, Maurici
Romieu, Aura Seguièr, Domerg Sumien, Josiana Ubaud, Sèrgi Viaule).
Per nos ajudar
Podètz, se volètz, nos ajudar a completar la basa, en particulièr pels
dialèctes, genres o grafias que son pas encara representats, en nos
mandant de tèxtes, o en nos signalant un tèxte qu’i aimariatz trobar. Basta de nos escriure : bateloc<at>univ-tlse2.fr
Citar BaTelÒc
S'utilisatz de donadas de BaTelÒc per una comunicacion o una
publicacion, vos mercejam de mençonar l'url del siti (a venir) e la referéncia (Bras &
Vergez-Couret 2016) çai-jos.
Publicacions
Descripcion de la basa operacionala :
Bras, M. & Vergez-Couret, M. (2016). BaTelÒc: A text base for the Occitan language.
In Vera Ferreira and Peter Bouda (eds.). Language Documentation and
Conservation in Europe, pp. 133-149, Special Publication No. 9 of the Journal Language Documentation & Conservation, Honolulu: University of Hawai'i Press.
Descripcion de la basa experimentala :
Bras, M. & Thomas, J. (2011). "BaTelÒc : cap a una basa
informatizada de tèxtes occitans". In A. Rieger (ed.) L’Occitanie
invitée de l’Euregio. Liège 1981 - Aix-la-Chapelle 2008 Bilan et
perspectives, Actes du IXème Congrès International de l'Association
Internationale d'Etudes Occitanes, Aix-la-Chapelle, 24-31 août 2008,
pp. 661-669, Aachen, Shaker.
Descripcion de l'utilitat d'una basa textuala per de projèctes lexicografics :
Bras, M., Thomas, J. (2007). "Diccionaris,
corpora, e basas de donadas textualas", Linguistica Occitana,
5, pp.1-22.
Començança del projècte :
Bras, M. (2006). "Le projet TELOC : construction
d'une base textuelle occitane", Langues et Cité : bulletin de
l'observation des pratiques linguistiques, 8, Décembre 2006, p.9.
Comunicacions
Bras, M., Sibille, J. Vergez-Couret, M. (2015). "Dire lo passat en
occitan : entre descripcions e prescripcions de l'emplec del passat
simple e dels passat compausat", 7en Obrador de Linguistica Occitana, München, 6-8 de julhet de 2015.
Bras, M., Vergez-Couret, M. (2014).
« Annotation morphosyntaxique d'un corpus de
textes occitans: l'expérience de BaTelÒc », XIè Congrès de l'Association Internationale d'Etudes Occitanes, Lhèida, 16-21 junh 2014.
Bras, M., Vergez-Couret, M. (2013).
"BaTelÒc: a Text Base for the Occitan Language",
ELE'2013 : International Conference on Endangered Languages
in Europe, Minde, Portugal, 17-18 octobre 2013.
Bras, M., Thomas, J. (2008). " Batelòc : cap a
una basa informatisada de tèxtes occitans ", IXème Congrès
International de l'Association Internationale d'Etudes Occitanes,
Aix-la-Chapelle 25-30 août 2008. Actes publiés en 2011 Angelica Rieger
(ed.), Aachen : Shaker Verlag.
Bras, M., Thomas, J. (2006). "Diccionaris e donadas linguisticas", 4en
Obrador de Linguistica Occitana, Montpelhièr, 7 d'abrial de 2006.