= Description = CorneliusV2 est un logiciel permettant l'extraction du contenu structuré de fichiers PDF. L'objectif est le suivant: CorneliusV2 prends en entrée un document PDF et part un ensemble de traitement (plus ou moins magique) renvoi en sortie un document structuré (comme dans le PDF). Couplé avec une interface intelligente, un utilisateur peut enrichir la structure ou corriger les resultats de façon plus ou moins global. CorneliusV2 est composé de 3 partie: * CorneliusAPIV2: une API complète qui contient tout la logique "métier". C'est ici que tout les traitement se font, que ce soit de l'extraction du PDF jusqu'à la reconstruction du document. * CorneliusConsoleV2: une application en console qui "lance la machine". Elle ne contient rien d'intelligent. Très pratique pour tester ou lancer des traitements en masse. * CorneliusManager: un mini-projet dont l'intérêt tient dans le fait qu'il contient les scripts a donner à MelodyManager (un gestionnaire de job avec une interface en WebService) qui permet de faire l'interface entre les interfaces de validation (connaissez-vous Harry?) et l'API Vous trouverez en plus dans ce dépôts des fichiers PDF d'exemples problématiques qui ... posent problème. Pourquoi V2 ? Car il existe un CorneliusV1, quelque part pas très loin de ce dépôt et même un Cornelius. = Documentation = Le projet est documenté: - ici-même - dans le code - sur l'intranet (dans le dossier Intranet/Documentation/Cornelius) - sur GoogleDrive (dans le dossier Cornelius) - sur Redmine En espérant que cela suffise = Dépendances = Pour utiliser CorneliusV2, il vous faut: - .Net Framework 4 - Datalogics Adobe PDF Library (idéalement version 10.1.0PlusP4e 32bits ou supérieur). Pour développer, il vous faut Visual Studio 2010 ou supérieur. = Développer = Vous voulez améliorer CorneliusV2 ? C'est possible, c'est tout à fait améliorable d'ailleurs. Pour cela, on ne conseille jamais trop de regarder la documentation avant et puis ensuite vous pouvez ouvrir le fichier CorneliusV2.sln dans votre Visual Studio préféré. Il vous faudra sûrement mettre à jours les références aux bibliothèques (surtout pour Datalogics), mais vous savez bien le faire, sinon demandez à Google. Vous pouvez rajouter le chemin vers les DLL dans votre variable d'environnement PATH, ce qui évite de devoir copier les DLL dans le dossier d'execution pour vos débugs, mais ce n'est pas une obligation, c'est la liberté ! = Compilation = Compiler sous Visual Studio c'est F6, mais si je vous apprends ça c'est assez génants. Il faut juste faire attention à cette bibliothèque qu'est Datalogics APDFL (pour Adobe PDF Library, vous suivez ?) = Installation = Si vous souhaiter seulement installer le logiciel, il faut commencer par le compiler (voir la rubrique ci-dessus). Ensuite vous prennez les .exe, les .dll, le .exe.config et les .pdb et vous les déplacer là où cela vous semble pertinent. C'est bon, la version "standalone" est installé :) = Configuration = Pour la version standalone, à coté du fichier exe, il y a un fichier .config. Ce fichier contient la configuration dite système du logiciel. Il est nécessaire de modifier le chemin du fichier de settings (sous la clé settings). Saisissez le chemin du fichier de configuration que vous souhaitez utiliser. Le fichier settings contient la configuration que vous souhaitez appliquer pour la série de document que vous allez traiter. C'est un fichier XML, les possiblités de configuration sont directement commenté dans le fichier de configuration. = Utilisation = Une fois installé correctement et configuré selon vos besoin, il vous suffit d'executé le binaire (soit double-clic soit depuis la console directement). Enjoy