Besoin d'aide ?

You are here:
< Retour
Damaris PDFSplitter

A quoi sert la tâche PDFSplitter ?

Damaris RM intègre en standard la tâche PDFSplitter qui vous permet d’extraire des données depuis la partie textuelle des fichiers PDF soumis.

Cette extraction permet ensuite d’effectuer d’autres tâches que sont :

  • L’indexation du document en constituant les données extraites comme des métadonnées
  • Le découpage d’un PDF unique en entrée contenant plusieurs documents
  • Le nommage des fichiers en sortie en utilisant des valeurs des métadonnées extraites
  • Etc.

Elle propose également d’autres fonctionnalités comme l’extraction des informations contenues dans les documents FACTUR-X ou la reconnaissance de pages intercalaires disposant d’un QR Code et le découpage du PDF en documents.

La fonction de recomposition manuelle des PDF est également paramétrable dans PDFSplitter.

Les prérequis pour utiliser PDFSplitter

Voici quelques prérequis pour que vous puissiez exploiter au mieux la tâche PDFSplitter.

Notez qu’une tâche PDFSplitter est toujours liée à une typologie de documents. De ce fait, il convient au préalable de créer votre typologie avant de démarrer le paramétrage de la tâche.

Les formats de fichiers acceptés

PDFSplitter extrait des informations qu’à partir de PDF texte.

Si vos PDF sont de type “Image”, un module complémentaire vous permet de les transformer en PDF texte. Contactez la société Damaris pour obtenir le module pdf_2_pdf_text. Contactez Damaris pour en savoir plus sur ce module

De plus, les fichiers PDF entrants ne doivent pas être protégés par un mot de passe.

La connaissance du langage Regular Expressions “RegEx”

PDFSplitter se paramètre grâce au langage RegEx ou les “Expressions régulières“.

Cette syntaxe vous permet de décrire de manière assez fine le format de la chaîne de caractères que vous souhaitez extraire.

Il est donc essentiel que vous soyez à l’aise dans le paramétrage des masques d’extraction en RegEx.

Vous pouvez vous entraîner en utilisant des sites comme https://regex101.com/ qui vous permettent de vérifier vos masques d’extraction.

Le démarrage d’un nouveau paramétrage

Créez votre tâche PDFSplitter dans le menu “Tâches planifiées / Définition des tâches”.

Voici la liste des principaux paramètres à renseigner, dans la section “PDF Splitter”  de la tâche :

  • Masque nom fichier : Ici il convient d’indiquer un nom de sous-répertoire correspondant aux flux entrants ou à la typologie de documents, suivi du masque des noms de fichiers à traiter
    • FactFourn/*.pdf pour traiter tous les fichiers PDF contenant des factures fournisseurs
    • BullPaie/*.pdf pour des bulletins de paie
    • Etc.
  • Type de document : liez votre tâche à la typologie dans laquelle les PDF seront archivés
  • Type de découpage : Cette option permet de définir comment découper les PDF entrants
    • Fixed Page : Si les PDF en sortie auront toujours le même nombre de pages. Par exemple, tous les documents vont avoir 2 pages
    • Group by : Regroupe les pages tant qu’une valeur d’index est identique. Par exemple, les pages d’une facture sont regroupées dans un même PDF sortant tant que le numéro de facture est le même
    • Le champ Index : Contient soit le nombre de pages pour l’option Fixed Page ou le nom de l’index dans le cas de Group by
  • L’option Sans découpage : Cochez cette case si chaque PDF en entrée ne contient qu’un seul document et ne nécessite pas de découpage
  • La section “Index” :
    • Ajoutez un nouvel index à remplir à partir du texte du PDF
    • C’est lors du paramétrage de chaque critère que vous allez utiliser les RegEx
  • La section “Nommage du fichier de sortie”
    • Ici, vous allez pouvoir nommer les fichiers de sortie en utilisant les critères que vous extrayez, en y ajoutant d’autres variables comme l’horodatage

Le découpage d’un PDF contenant des QR Codes

PDFSplitter découpage par QR Code

Cette fonction accepte en entrée des fichiers PDF ayant été numérisés avec un QR Code comme intercalaire.

Le système retrouve les QR Codes et crée un fichier PDF distinct composé des pages se trouvant entre deux intercalaires.

Vous pouvez soumettre les fichiers PDF à traiter sous deux formes  :

  • Un fichier PDF contenant toutes les pages
  • Un fichier PDF par page

Pour paramétrer cette fonction, in convient d’indiquer les informations suivantes :

  • Le format en entrée :
    • QR Code Mono : Chaque PDF ne contient qu’une seule page
    • QR Code Multi : Un PDF contient toutes les pages à découper
  • Séparateur QR Code : Indique la chaîne de caractères contenue dans le QR Code, en quelque sorte, le texte de l’intercalaire
    • Pour cela, définissez un texte servant d’intercalaire. Voici un exemple : DAMARIS SEPARATEUR DE DOCUMENTS
    • Générez le QR Code, voici un exemple :

QR Code DAMARIS SEPARATEUR DOCUMENTS

Vous pouvez télécharger l’intercalaire ici : Damaris_QRCode_SeparateurDocument

Voici un exemple de la fenêtre de paramétrage de PDFSplitter :

Damaris RM PDFSplitter Paramétrage intercalaire QR Code

Le traitement des FACTUR-X entrantes

Damaris FACTUR-X

Le format standard européen FACTUR-X est admis par la DGFIP comme format d’échanges de factures et validé pour la dématérialisation des factures à partir de 2026.

L’application Damaris RM accepte déjà ce format pivot et ainsi vous simplifie l’acceptation des factures fournisseurs.

Une fois paramétrée, la fonction PDFSplitter va récupérer les valeurs des champs obligatoires stockées dans chaque FACTUR-X et va les intégrer dans votre base Damaris RM en vue de leur traitement.

Le découpage et la recomposition manuels des PDF

Damaris PDFSplitter découpage manuel

Cette fonction va permettre à vos utilisateurs et utilisatrices de découper manuellement un PDF archivé et d’en générer plusieurs autres.

La personne va d’abord visualiser le document et repérer le découpage souhaité.

Par  exemple, elle peut générer un nouveau PDF composé des pages 1 à 3 du document existant. Pour cela, elle va indiquer “1-3”.

Elle peut également souhaiter créer un nouveau document composé de la page 10 à la fin du PDF initial : “10-“.

Voici les différentes syntaxes acceptées par cette fonction :

Saisie de la valeurAction
x-yDe la page x à la page y
x-De la page x jusqu’à la fin du PDF en entrée
-yDepuis la première page jusqu’à la page y
xLa page x uniquement
n;m

Concaténer deux ensembles de pages du PDF initial.

n et m suivent la syntaxe décrite précédemment.

Voici quelques exemples :

3-6;12 : De la page 3 à 6 concaténée avec la page 12

5-6;10-17 : Concaténer les pages 5 et 6 avec les pages 10 à 17

Configurer une tâche PDFSplitter