L’extraction automatique d’informations grâce aux techniques de NLP
--
De nos jours, des quantités infinies de données doivent être collectées, étudiées, organisées quotidiennement. Un tel travail ne peut être réalisé manuellement car serait extrêmement chronophage.
Les développeurs, sociétés, start-ups etc font ainsi appel à la technologie de NLP pour effectuer cette extraction d’informations.
Dans cet article, nous allons découvrir ensemble les techniques d’extraction automatique d’informations.
1- Le pipeline général du processus d’extraction d’informations à partir d’un document non structuré
Ce pipeline montre l’architecture d’un système simple d’extraction d’informations.
Tout d’abord, le texte brut du document est divisé en phrases à l’aide d’un segmenteur de phrases. Puis, chaque phrase est tokenisée ou segmentée en mots à l’aide d’un tokenizer.
Ensuite, chaque mot est étiqueté avec des balises qui présentent la catégorie grammaticale, le genre et le nombre, qui seront très utiles dans l’étape suivante, la détection des entités nommées.
Ici, nous recherchons les entités potentiellement intéressantes dans chaque phrase.
Enfin, nous utilisons la technique de détection de relations pour rechercher des relations probables entre les différentes entités dans le texte (relation linking).
2- Quelques techniques d’extraction automatique d’information :
Étiquetage morpho-syntaxique (Part-of-speech tagging)
Cette technique consiste à associer aux mots d’un texte les informations grammaticales correspondantes, comme la catégorie grammaticale (nom propre, verbe, adjectif…), le genre et le nombre à l’aide d’un outil informatique (analyseur morpho-syntaxique) comme spaCy, NLTK et BERT etc.
Reconnaissance des entités nommées (Named Entity Recognition)
La reconnaissance d’entités nommées (NER) est une sous-tâche de l’extraction d’informations qui vise à localiser et à classer les entités nommées mentionnées dans un texte non structuré dans des catégories prédéfinies telles que des noms de personnes, des organisations, des lieux, etc.
Tout mot ou groupe de mots qui fait systématiquement référence au même élément est considéré comme une entité.
Une approche en deux étapes est au cœur de chaque modèle NER :
1. Détecter une entité nommée,
2. Catégoriser l’entité.
La modélisation thématique (Topic Modelling)
La modélisation thématique est une technique de traitement du langage naturel non supervisée qui utilise des modèles statistiques pour étiqueter et regrouper des groupes de textes qui partagent des sujets communs.
Il s’agit d’un exercice similaire à l’étiquetage des mots-clés, c’est-à-dire l’extraction et le classement des mots importants d’un texte donné, sauf qu’il est appliqué à des mots-clés thématiques et aux groupes d’informations qui leur sont associés.
L’extraction d’informations peut être appliquée à divers formats de texte : des courriels et pages Web, présentations, documents juridiques et articles scientifiques. Cette technique résout avec succès les défis liés à la gestion de contenu et à la découverte de connaissances dans différents domaines tels que la santé par exemple :
- pour la gestion des dossiers médicaux (pour structurer et résumer les dossiers des patients) ;
- pour la recherche pharmaceutique (découverte de médicaments, d’effets indésirables et analyse automatisée d’essais cliniques).
Dans notre prochain article, vous pourrez découvrir la simularité textuelle grâce à la technique d’apprentissage non supervisé (LDA) ou topic modelling.
Une question ? contactez-nous : contact@amia-solutions.com