CONNEXION
  • RetourJeux
    • Tests
    • Soluces
    • Previews
    • Sorties
    • Hit Parade
    • Les + populaires
    • Les + attendus
    • Tous les Jeux
  • RetourActu
    • Culture Geek
    • Astuces
    • Réalité Virtuelle
    • Rétrogaming
    • Toutes les actus
  • Bons plans
  • RetourHigh-Tech
    • Actus JVTECH
    • Smartphones
    • Mobilité urbaine
    • Hardware
    • Image et son
    • Tutoriels
    • Tests produits High-Tech
    • Guides d'achat High-Tech
    • JVTECH
  • RetourVidéos
    • A la une
    • Gaming Live
    • Vidéos Tests
    • Vidéos Previews
    • Gameplay
    • Trailers
    • Chroniques
    • Replay Web TV
    • Toutes les vidéos
  • RetourForums
    • Hardware PC
    • PS5
    • Switch
    • Xbox Series
    • Overwatch 2
    • FUT 23
    • League of Legends
    • Genshin Impact
    • Tous les Forums
  • PC
  • PS5
  • Xbox Series
  • PS4
  • One
  • Switch
  • Wii U
  • iOS
  • Android
  • MMO
  • RPG
  • FPS
En ce moment Genshin Impact Valhalla Breath of the wild Animal Crossing GTA 5 Red dead 2
Etoile Abonnement RSS

Sujet : Est ce l'OCR pourra déchiffrer les archives manuscrites dans le futur ?

DébutPage précedente
1
Page suivantePage suivante
cestpasdechance cestpasdechance
MP
Niveau 21
22 juillet 2024 à 23:47:48

D'offices à lire comme celle ci ?

http://archives.cd08.fr/arkotheque/visionneuse/visionneuse.php?arko=YTo3OntzOjQ6ImRhdGUiO3M6MTA6IjIwMjQtMDctMjIiO3M6MTA6InR5cGVfZm9uZHMiO3M6MTE6ImFya29fc2VyaWVsIjt

cestpasdechance cestpasdechance
MP
Niveau 21
22 juillet 2024 à 23:50:03

Les liens bug, mais en gros n'importe quel document de cette liste par exemple
https://archives.cd08.fr/arkotheque/consult_fonds/fonds_seriel_annotation_resus_rech.php?ref_fonds=4

(il faut zoomer sur mobile)

cestpasdechance cestpasdechance
MP
Niveau 21
22 juillet 2024 à 23:50:47

Le lien de la liste marche pas, faut lancer une recherche au mif

shittynickname shittynickname
MP
Niveau 27
24 juillet 2024 à 11:06:24

Je bosse justement en IA et Computer vision, franchement je vais te dire, a mon avis toutes les archives scannees mais pas encore annotees qu'on a est uniquement du a un manque d'interet. Je pense qu'il faudrait quelques mois a des bon inges en ML pour nous pondre un truc qui marche bien, mais bon, faut financer le machin quoi, mais oui totalement possible.

cestpasdechance cestpasdechance
MP
Niveau 21
24 juillet 2024 à 11:17:31

Merci, et à l'échelle individuelle est ce qu'il des outils qui pourraient m'aider à le faire ?

godrik godrik
MP
Niveau 26
24 juillet 2024 à 18:53:25

ouais, je suis d'accord, c'est faisable.
Si tu n'a jamais ce fenre de chose. C'est complique de le faire toi meme.
Le mieux que tu puisse faire est de t'assurer qu'il y aura assez de jeu de donnee annote pour permettre aux gens de faire ca.
Tu pourrais contacter ta fac local pour voir si il mettrait le probleme dans un de leur cours de vision. Ou si il voudrait mettre un stagiaire de M2 dessus.

shittynickname shittynickname
MP
Niveau 27
25 juillet 2024 à 15:13:47

D'apres PWC ( https://paperswithcode.com/sota/optical-character-recognition-on-benchmarking ), ce model est sense avoir les meilleurs perf en termes de precision https://github.com/arvindrajan92/DTrOCR. Le probleme c'est que tu n'as pas la partie training. Ce que je veux te montrer c'est que comme Grodrik l'a souligne, les challenge auxquels tu fais face sont:
- il te faut un dataset consequent, on fait pas tourner de l'OCR comme ca, on le fait tourner sur des patch, en gros tu as ton document, il faut le diviser en petites sections que ton model essaiera de lire, le plus efficace etant evidement d'isoler par exemple chaque mot ou chaque phrase, pour automatiser ca, il y a meme des model de detection de texte pour ca. Donc gros dataset + detection de texte requis
- aujourd'hui les meilleurs model d'OCR (meme ceux qui font du temps reel) utilisent les fameux transformers qui creent une connection logique entre toutes les prediction (une lettre etant une prediction) donc un model base sur un transformer sortira generalement un mot qui ressemble a quelque chose, donc je pense (je sais, ca sort de mon cul ce que je dis, c'est purement instinctif) que le model risquera de galerer severe avec les noms de famille. par exemple, pour exagerer, au lieu d'ecrire "Gabin" il pourra mettre artificiellement trop de proba sur la lettre m pour ecrire "Gamin" donc en plus d'avoir un dataset francais et manuscrit, ton dataset devra contenir pas mal de noms pour eviter que ton model ne transforme trop les noms y compris les noms de ville.
- Ensuite, tes models devront etre entraines puis peut etre pourquoi pas meme faire tourner un LLM nativement francophone pour minimiser les fautes et faire en sorte que la sortie puisse etre bien formattee. Je vois de base comme probleme etant le passage entre la lettre "s" et la lettre "s long" ( https://fr.wikipedia.org/wiki/S_long ) particulierement utilisee dans les archives comme ca. Ensuite le LLM permettra optionnellement de corriger certaines fautes faites par l'OCR "bisarre" -> "bizarre" parce que "s" ressemble a "z" tout en etant assez intelligent pour comprendre qu'un nom ne devrait pas forcement etre corrige.

Donc le projet est vraiment tres faisable et je le diviserais en 4 parties:
- creation du dataset (Optical Character Detection, Optical Character Recognition)
- entrainement des models
- evaluation "academique", reprises, rentrainements, finetuning
- deploiement, post-processing, correction etc..

c'est un beau projet, vraiment.

cestpasdechance cestpasdechance
MP
Niveau 21
29 juillet 2024 à 17:27:26

Merci ! Je vais réfléchir à l'architecture du programme et consulter les différents sites d'archives pour l'instant (ils peuvent très différents d'une région à l'autre).

Mais comme mes compétences en programmation sont limitées je vais attendre que les ai progressent. Et je pense même qu'il est possible que quelqu'un programme un outils du même type avant moi

DébutPage précedente
1
Page suivantePage suivante
Répondre
Prévisu
?
Victime de harcèlement en ligne : comment réagir ?
Infos 0 connecté(s)

Gestion du forum

Modérateurs : godrik, LGV
Contacter les modérateurs - Règles du forum

Sujets à ne pas manquer

La vidéo du moment