Bonjour
J’aimerai avoir une idée de comment faire un programme pouvant extraire le text d’un certain nombre d’image de ce type:
L’objectif étant d’avoir en sorti une df avec tous les noms des musiques capturées sur mon telephone.
Merci!
Bonjour
J’aimerai avoir une idée de comment faire un programme pouvant extraire le text d’un certain nombre d’image de ce type:
L’objectif étant d’avoir en sorti une df avec tous les noms des musiques capturées sur mon telephone.
Merci!
Bonjour @4490,
On appelle cela l’océrisation (autrement appelé OCR). Implémenter sa propre solution, from scratch, risque d’être relativement compliquée, et contre productif. En effet, dans un premier temps, cela demande beaucoup d’agilité en programmation, et deuxièmement cela fait appel à des outils relativement compliqués en deep learning :
Pour la détection du texte, on peut retrouver : soit des modèles de détection d’objet (object detection), soit de segmentation d’instance (Mask RCNN…), ou des outils d’analyse d’image comme la solution Tesseract.
Pour la reconnaissance de texte, on peut retrouver des modèles CRNN, SAR, MASTER…
Par conséquent, si on ne veut pas passer un temps conséquent sur cet aspect, il est préférable d’utiliser des solutions toutes faites :
Tesseract : Outil relativement facile d’utilisation, demandant peu de ressource, mais, performance relativement moyenne, très perturbé par le bruit, l’angle du texte… Ne semble pas convenir pour le type d’image présenté.
Les API Vision de google ou Azure : relativement performant, mais, très rapidement payant.
DocTR : solution basé sur du Deep Learning, robuste, gratuit, demandant par contre beaucoup de ressource. Les modèles peuvent être ré-entraînés si nécessaire.
MMOCR : similaire à DocTR.
Il y’a aussi un nombre de repo github très important, proposant des solutions similaires.
Je conseille de jeter un coup d’œil à DocTR, c’est vraiment un outil simple d’utilisation et très performant.