CNRS

Rechercher



Tamil Epigraphy Database project

Tamil Epigraphy - Lexical and Grammatical Database with Searchable Engine
Collaboration entre Tamil Virtual Academy, Chennai (Inde) et UMR7528 Mondes iranien et indien (France)

Titre du projet
Tamil Epigraphy - Lexical and Grammatical Database with Searchable Engine
 

Durée du projet : 2 ans (août 2016 - juillet 2018)
 

Responsable
Appasamy Murugaiyan, EPHE-UMR 7528 Mondes iranien et indien, France
 

Collaborateurs
Jan Kucera, Institute of South and Central Asia, Charles University, Praha, Czech Republic.
Dr R. Poongundran, Epigraphist, Tamil Nadu, India
Dr Vasu Renganathan, Centre for South Asian Studies, University of Pennsylvania, USA.
 

 

Description et structure de la base de données
Ce projet pilote a pour but de rendre accessible, à tous publics, le corpus d’épigraphie tamoule comme source commune permettant l’analyse de données et la recherche en général. Cette base de données devra répondre aux besoins multiples des usagers, tant les chercheurs spécialisés que le public en général, qui seraient intéressés à utiliser les textes épigraphiques pour étudier l’histoire culturelle tamoule. La base de données sera conçue comme un outil pluridisciplinaire qui englobera toutes les disciplines confondues en sciences humaines et sociales telles que histoire, anthropologie sociale, économie, architecture, histoire de l’art, linguistique, littérature, religions et d’autres domaines.

La base de données sera constituée de textes épigraphiques classés par ordre chronologique et présentera toutes les métadonnées nécessaires et exhaustives permettant aux utilisateurs de situer chaque inscription dans le temps et l’espace. Chaque texte épigraphique sera disponible sous des formats différents : image numérique de l’inscription, estampage, copie manuscrite, texte en écriture d’origine (vaṭṭeḻuttu, tamiḻ, grantha), en écriture tamoule moderne et en translittération (sur le modèle du Madras University Tamil Lexicon). Chaque texte comportera une traduction en anglais. Toutes ces données seront stockées dans une base de données relationnelle permettant aux utilisateurs d’extraire l’information souhaitée par un tri multicritères.
 

Moteur de recherche
La saisie de texte se fera en Unicode et sur un système évolutif afin de permettre de stocker un grand corpus. Le système permettra la recherche de plusieurs manières, par exemple, dans une des écritures en Unicode : vaṭṭeḻuttu, grantha, tamoul et tamoul classique, et en anglais. Après la segmentation de textes épigraphiques, chaque information identifiée, en plus de l’étiquetage morpho-syntaxique, sera marquée par un certain nombre de (sous-) champs sémantiques. Une recherche de donnée par un tri multicritères pourra se faire soit à partir d’un élément lexical soit par une catégorie grammaticale, soit en composant d’autres champs sémantiques. Le moteur de recherche présentera aux utilisateurs la liste complète des catégories grammaticales et d’autres champs sémantiques répertoriés dans la base de données. En effet, le moteur de recherche ainsi que la base de données relationnelle seront aussi exhaustifs que possible de manière à accéder à toutes les données par un tri multicritères. Il est important de noter que la base de données sera logée dans MySQL system et que le moteur de recherche sera construit avec PHP à l’aide de la technologie AJAX en s’associant à d’autres langages de programmation telle que JQuery et Javascript. Pendant l’élaboration de la base de données, nous utiliserons une société d’hébergement comme https://www.1and1.com pour stocker les données et les applications provisoirement. Nous transférerons la version définitive de la base de données sur le serveur de Tamil Virtual Academy (http://www.tamilvu.org). Il nous sera possible, par ailleurs, d’utiliser le serveur http://sangam.tamilnlp.com/, élaboré pour le corpus de la littérature sangam, pendant la période d’essai comme plateforme provisoire.
 

Objectif du projet

  • Préservation et archivage numériques de textes épigraphiques tamouls ;
  • Elaboration d’une liste complète des inscriptions répertoriées jusqu’à nos jour. Les textes épigraphiques tamouls sont documentés et disponibles dans des publications diverses et variées. Un des objectifs principaux de ce projet serait de les réunir et les rendre disponibles dans cette base de données. Cette liste comprendra toutes les les métadonnées disponibles comme présentées dans les volumes de « South Indian Inscriptions ». Nous compilerons cette liste en nous aidant des publications connues et disponibles telles que : South Indian Inscriptions, Publications of the Tamil Nadu State Department of Archaeology, āvaṇam, journal publié par Tamil Nadu Archaeological Society, South Indian Temple Inscriptions, Epigraphia Indica, Epigraphia Carnatica, Damilica, Inscriptions of the Pudukkottai State, Travancore Archaeological Series, Tirumalai-Tiruppati Devastanam Epigraphical series, ainsi que d’autres publications et collections occasionnelles ;
  • Construire une base de données lexicale et grammaticale des textes épigraphiques et un moteur de recherche (5ème au 8ème siècles) ;
  • Préparer des dictionnaires électroniques de l’épigraphie tamoule qui viendraient compléter les dictionnaires et glossaires existants ;
  • Contribuer au développement de la recherche linguistique historique tamoule et aux autres études historiques ;
  • La base de données ainsi que le moteur de recherche seront diffusés gratuitement (free software) selon les principes de Licence publique générale (GNU).  

 

Contact et informations : a.murugaiyan@wanadoo.fr

 

mis à jour le