Imprimer cette page

Tessi lab présente sa solution d’extraction de données sur documents non formatés

Évaluer cet élément
(0 Votes)

Tessi lab présente aujourd’hui sa solution d’extraction de données sur documents non formatés : tessi lab document reader (TLDR). Cette solution, aujourd’hui développée pour le format des tickets de caisse, permet de lire et d’analyser des données à grande échelle.


L’analyse de données issues des tickets caisse
Dans le cadre de sa mission d’innovation, Tessi lab a notamment travaillé, en 2015, à l’élaboration d’une solution d’extraction de données issues de tickets de caisse.
Il existe une grande variété de mise en page sur les tickets de caisse. Cette hétérogénéité s’explique par la diversité des enseignes de distribution, comme par l’autonomie que certains magasins peuvent avoir au sein de leur enseigne.

TESSI LAB DOCUMENT READER EN BREF
• Module de reconnaissance optique de caractères (OCR)
L’image du ticket de caisse est traitée numériquement en vue d’améliorer sa lisibilité. TLDR isole ensuite les caractères à l’aide d’un moteur d’OCR open source hautement customisé pour répondre aux exigences de TLDR.

• Module d’analyse sémantique
Afin d’extraire un maximum d’informations de l’image obtenue, chaque mot est analysé dans son contexte a n de déterminer le type d’information qu’il contient et la con ance que l’on peut lui accorder.

• Base de données « big data »
Les résultats de l’analyse sémantique sont intégrés dans une base de données NoSQL. Cette organisation permet d’interroger le système sur un ticket de caisse en particulier ou sur un ensemble plus important.

• Architecture
Afin de pouvoir supporter d’importantes montées en charge, Tessi lab a, dès l’origine du développement de TLDR, veillé à rendre la solution totalement scalable. Livré sous forme d’une interface de programmation (API), TLDR est directement intégrable dans tous projets web, applications et applications mobiles.

Aujourd’hui, TLDR est capable à partir d’une photographie de ticket de caisse d’extraire l’ensemble des informations suivantes :
• la date,
• le montant total,
• l’enseigne,
• l’ensemble des produits achetés,
• le prix des produits ainsi que leur taux de TVA.

Roadmap 2016
La construction modulaire de TLDR permet l’ajout rapide de fonctionnalités.
Depuis octobre 2015 Tessi lab poursuit le développement de TLDR et souhaite mettre en place de nouveaux modules d’analyses sémantiques dédiés à de nouveaux types de documents commerciaux : factures, contrats, bons de commandes...
En amont des nouveaux modules d’analyses sémantiques, Tessi lab a pour ambition de développer en 2016 son propre « catégoriseur » de documents, basé notamment sur la technologie du deep learning.

Lu 7516 fois
La rédaction

Le service Rédaction a pour mission de sélectionner et de publier chaque jour des contenus pertinents pour nos lecteurs internautes à partir d’une veille approfondie des communiqués de presse pour alimenter les rubriques actualité économiques, actualités d’entreprises, études ou encore actualités sectorielles. Pour échanger avec notre service Rédaction web et nous faire part de vos actualités, contactez-nous sur redaction@gpomag.fr