Centre de Recherche Bretonne et Celtique

Centre de recherche
bretonne et celtique

Jean-Baptiste Pressac

Faculté des Lettres Victor-Segalen, 20 rue Duquesne - CS 93837 - 29238 Brest cedex 3
Téléphone : 33 (0).298.016.895
Courriel : jean-baptiste.pressac AT univ-brest.fr

Traitement et analyse de bases de données / Production et diffusion de
corpus numériques

Fonctions / Charges

  • Structuration, traitement et analyse des bases de données ou d’enquêtes.
  • Création et administration des dispositifs de diffusion et de traitement de l’information, notamment la bibliothèque numérique, le carnet Hypothèses de l'UMS et le site Web du CRBC.
  • Gestion des ressources documentaires du CRBC, notamment les données numériques de la recherche (documentation aux normes OAI-PMH).
  • Formation et diffusion des connaissances des traitements et des bases de données auprès des utilisateurs, des enseignants-chercheurs, des jeunes chercheurs et des partenaires scientifiques.
  • Formalisation et participation à la valorisation des résultats auprès de différents publics.
  • Membre du comité de pilotage du réseau métier Bases de données.

Projets

Bibliothèque numérique du CRBC

Conception et administration de la bibliothèque numérique du CRBC développé avec Omeka et hébergée par Huma-Num. Mise en place de la chaine de numérisation et de conservation des fonds. Moissonnage des fonds hébergés par les partenaires du CRBC. Valorisation des fonds auprès des partenaires du CRBC (moissonnage par le portail Bretania).

Le point de vue périphérique - Projet de recherche en littérature bretonne (depuis septembre 2012, avec Mannaig Thomas et Nelly Blanchard)

Pour le projet Le point de vue périphérique, mise en place d'une base de données prosopographique (PRELIB). La base contient des informations biographiques sur les acteurs de la littérature bretonne, leur production littéraire ainsi que leur participation à des lieux de sociabilité (associations, sociétés savantes, mouvements politiques et religieux, etc.). Les deux principales sources d'informations sont la thèse de Yves Le Berre et l'Anthologie de la littérature bretonne au XXe siècle de Francis Favereau.

La première phase du projet a consisté à trouver un framework logiciel pour la mise en place d'une interface de saisie avec gestion des authentifications. Après un premier essai avec CodeIgniter (basé sur PHP), le choix s'est porté sur le framework Django (basé sur Python).

Pour l'instant, les données collectées sont stockées dans une base de données mySQL. Cependant, le modèle relationnel s'avère trop rigide pour la saisie de données biographiques qui ont besoin d'être contextualisées (par exemple, on se marie avc quelqu'un à un certain endroit à une date donnée) et rattachées à la source de l'information. De plus, la réparttion des données dans des tables intermédiaires (notamment les données liées à la production littéraire) complexifie les requêtes.

D'autre part, certaines informations saisies sont déjà disponibles librement ou sont en passe de le devenir. C'est notamment le cas pour la production littéraire qui peut être extraite (de manière incomplète) du SPARQL endpoint de data.bnf.fr disponible depuis l'été 2014. Se pose donc la question de la réutilisation de ces données tierces soit pour les intégrer dans notre base soit pour les confronter ou les compléter avec nos propres données lors de leur analyse.

Dans un premier temps interessé par le modèle de données RDF et les frameworks de type "Linked Data" comme Callimachus, je m'interesse pour l'instant au projet Wikidata et à son modèle de déclaration de données factuelles permettant la saisie des sources et de qualifier les déclarations (voir par exemple la déclaration des employeurs du compositeur Jean-Sébastien Bach).

La base de données est hébergée par la TGIR Huma-Num. Les données qu'elle contient seront mises à disposition selon les principes de l'Open Data.

Numérisation du Barzaz Bro-Leon (depuis 2014)

Numérisation, documentation et mise en ligne du fonds Barzaz Bro-Léon. Ce fonds, numérisé rapidement au CRBC pour besoin de conservation en 2012 a été de nouveau prêté depuis mai 2014 au CRBC pour un contrôle qualité et une documentation en Dublin Core des scans. Les documents numérisés seront publiés sur une bibliothèque numérique basée sur le logiciel Omeka (hébergée par Huma-Num).

Base de données des bagnards de Brest (depuis septembre 2014 avec Philippe Jarnoux)

Le service historique de la défense conserve les registres du bagne de Brest, en activité de 1749 à 1858. Phlippe Jarnoux a entrepris au début des années 2000 de reporter les fiches des bagnards dans un fichier Excel. Ce fichier doit me permet de calculer les effectifs du bagne. J'utilise pour cela la librairie Python Pandas.

ImpreSHS (depuis juin 2015)

Pour le compte de la Maison des sciences de l'homme de Bretagne à Rennes, conception et développement de la base de données du projet ImpreSHS (MySQL, Django).

 

Membres