Grammalecte  Check-in [6a57dc4970]

Many hyperlinks are disabled.
Use anonymous login to enable hyperlinks.

Overview
Comment:[fr] nr: ocr, +ajustements
Downloads: Tarball | ZIP archive | SQL archive
Timelines: family | ancestors | descendants | both | trunk | fr
Files: files | file ages | folders
SHA3-256:6a57dc497057999a3231a1fe35c6a4a7a73fac50db914b401081cf613e07f9f1
User & Date: olr 2019-05-14 09:10:43
Context
2019-05-14
10:02
[fr] nr: conf verbe/ppas, +ajustements check-in: 7424c98a5b user: olr tags: fr, trunk
09:10
[fr] nr: ocr, +ajustements check-in: 6a57dc4970 user: olr tags: fr, trunk
07:10
[fr] ajustement check-in: 90805bb084 user: olr tags: fr, trunk
Changes

Changes to gc_lang/fr/rules.grx.

   406    406   TEST: {{( }}parenthèses)                                                  ->> (
   407    407   TEST: c’est (enfin{{ )}} parti.
   408    408   TEST: voici des (parenthèses{{ )}}, n’est-ce pas ?                        ->> )
   409    409   
   410    410   
   411    411   # Parenthèses collées
   412    412   __<s>/typo(typo_parenthèse_fermante_collée)__
   413         -    [)]\b(?![s¹²³⁴⁵⁶⁷⁸⁹⁰]\b) <<- not before("\\([rR]e$") ->> ") "                                   # Il manque un espace après la parenthèse.
          413  +    [)]\b(?![s¹²³⁴⁵⁶⁷⁸⁹⁰]\b) <<- not before("\\([rR][eéEÉ]$") ->> ") "                              # Il manque un espace après la parenthèse.
   414    414   __<s>/typo(typo_parenthèse_ouvrante_collée)__
   415    415       \b[(](?=[^)][^)][^)]) <<- ->> " ("                                                              # Il manque un espace avant la parenthèse.
   416    416   
   417    417   TEST: C’est au fond du couloir{{(}}celui du deuxième étage{{)}}qu’il se trouve.
   418    418   TEST: (a + b)²
   419    419   TEST: il faut (re)former tout ça.
   420    420   
................................................................................
   460    460   TEST: Vos {{“}}amis{{“ }}et vous êtes finis !
   461    461   
   462    462   
   463    463   
   464    464   #
   465    465   #
   466    466   # NOTE
   467         -# Tout contrôle des espaces doit se faire avant ce point.
          467  +# Tout contrôle des espaces existants doit se faire avant ce point.
   468    468   # À partir d’ici, toute règle est susceptible de supprimer des caractères et les remplacer par des espaces ou des chaînes de longueur égale.
   469    469   #
   470    470   #
   471    471   
   472    472   
   473    473   !!!
   474    474   !!!
................................................................................
   861    861   !!!! Espaces manquants                                                                            !!
   862    862   !!
   863    863   !!
   864    864   
   865    865   __<s>/typo(typo_espace_manquant_après1)__
   866    866       ({w1})[,:]({w_1})  @@0,$  <<- not \1.isdigit() -2>> " \2"                                       # Il manque un espace.
   867    867   __<s>/typo(typo_espace_manquant_après2)__
   868         -    [?!;%‰‱˚»}]({w_1})  @@$  <<- -1>> " \1"                                                       # Il manque un espace.
          868  +    [?!;%‰‱˚»}]({w_1}|[({[])  @@$  <<- -1>> " \1"                                                 # Il manque un espace.
   869    869   __<s]/typo(typo_espace_manquant_après3)__
   870         -    {w_1}[.]({w_1})  @@$
          870  +    {w_1}[.]({w_1}|[({[])  @@$
   871    871       <<- (\1.__len__() > 1 and not \1[0:1].isdigit() and spell(\1)) or after("^’") -1>> " \1"        # Il manque un espace.
   872    872   
   873    873   TEST: J’en ai marre,{{ça}} suffit.
   874    874   TEST: elle est délirante.{{Devine}} ce qu’elle a dit.
   875    875   TEST: Voilà,{{il}} manque un espace.                                        ->> " il"
   876    876   TEST: Dernier essai.{{Voilà}}, c’est ça.                                    ->> " Voilà"
   877    877   TEST: muni de lunettes protectrices et.{{d}}’un casque.
   878    878   TEST: espace:{{manquant}}                                                   ->> " manquant"
   879    879   TEST: espace{{;}}{{manquant}}
   880    880   TEST: espace ;{{manquant}}                                                  ->> " manquant"
   881    881   TEST: espace{{?}}{{manquant}}
   882    882   TEST: espace{{!}}{{manquant}}
          883  +TEST: une espace ?{{(}}oui ou non)
   883    884   TEST: espace.{{Manquant}}                                                   ->> " Manquant"
   884    885   TEST: C’est bien.{{Les}} invités seront contents.                           ->> " Les"
   885    886   TEST: qui ont refusé.{{de}} se sauver                                       ->> " de"
   886    887   TEST: Y parvenir quoi qu’il en soit.{{Le}} sort en est jeté.                ->> " Le"
   887    888   TEST: pic.twitter.com/PICNAME
   888    889   
   889    890   
................................................................................
  1370   1371   
  1371   1372   TEST: __ocr__ {{II}} pleut tout le temps.
  1372   1373   TEST: __ocr__ En l’an {{2OO1}}, tout commença.
  1373   1374   
  1374   1375   
  1375   1376   ## Casse
  1376   1377   __[s]/ocr(ocr_casse_pronom_vconj)__
  1377         -    {w2}-(On|Ils?|Elles?|Tu|Je|Nous|Vous|Mêmes?|Ci|Là|Une?s) @@$
         1378  +    {w2}-(On|Ils?|Elles?|Tu|Je|Nous|Vous|Mêmes?|Ci|Là|Une?s|Les?|La|Leur) @@$
  1378   1379       <<- -1>> =\1.lower()                                                                            # Erreur de numérisation ? Casse douteuse.
  1379   1380   
  1380   1381   TEST: __ocr__ Part-{{On}} demain ?
  1381   1382   TEST: __ocr__ À ce compte-{{Ci}}, on n’en viendra jamais à bout.
  1382   1383   TEST: __ocr__ Quelques-{{Uns}} sont incapables d’y parvenir.
  1383   1384   
         1385  +
         1386  +## Mots inconnus du dictionnaire
         1387  +__[s]/ocr(mots_composés_inconnus)__
         1388  +    \w+-\w+
         1389  +        <<- not spell(\0) and not re.search("(?i)-(?:je|tu|on|nous|vous|ils?|elles?|là|ci|les?|la|leur|une?s)$", \0)
         1390  +        ->> _                                                                                       # Erreur de numérisation ? Mot composé inconnu du dictionnaire.
         1391  +
         1392  +TEST: __ocr__ c’est du {{base-bal}}]
         1393  +TEST: __ocr__ cet homme-là est corrompu.
         1394  +TEST: __ocr__ cette femme-là est revenue nous dire ce qu’elle pensait de nous.
         1395  +
  1384   1396   
  1385   1397   ## Lettres isolées
  1386   1398   # Note: l’option “mapos” cherche les apostrophes manquantes après les lettres l, d, n, m, t, s, j, c, ç
  1387   1399   __[s]/ocr(ocr_lettres_isolées)!2__
  1388   1400       \w(?!’)
  1389   1401       <<- not re.search("[0-9aàAÀyYdlnmtsjcçDLNMTSJCÇ_]", \0) and not before("\\d[   ]+$") and not (\0.isupper() and after0(r"^\."))
  1390   1402       ->> _           # Lettre isolée : erreur de numérisation ?
................................................................................
  1397   1409   
  1398   1410   
  1399   1411   ## Caractères rares
  1400   1412   __<s>/ocr(ocr_caractères_rares)__
  1401   1413       \w*[{}<>&*#£]+\w*
  1402   1414       <<- \0 != "<" and \0 != ">" ->> _                                                               # Erreur de numérisation ? Cette chaîne contient un caractère de fréquence rare.
  1403   1415   
         1416  +__<s>/ocr(ocr_doublons_caractères_rares)__
         1417  +    [\]\[({}][\]\[({}]+
         1418  +        <<- ->> _                                                                                   # Erreur de numérisation ? Succession douteuse de caractères.
         1419  +
  1404   1420   TEST: __ocr__ trouve {{l£}} temps
  1405   1421   TEST: __ocr__ elle s’{{avance*}} sur le seuil
  1406   1422   TEST: __ocr__ par beaucoup d’argent ? {{{Il}} débouche le Jack Daniels
         1423  +TEST: __ocr__ {{[[}}voyons celà].
         1424  +TEST: __ocr__ {{((}}voyons ceci).
  1407   1425   
  1408   1426   
  1409   1427   ## Mélange chiffres/lettres
  1410   1428   __[i]/ocr(ocr_le_la_les_regex)__
  1411         -    1[easrnxiocuwàéè]
         1429  +    [1[][easrnxiocuwàéè]
  1412   1430           <<- \0.endswith("e") ->> le                                                                 # Erreur de numérisation ?
  1413   1431           <<- __else__ and \0.endswith("a") ->> la                                                    # Erreur de numérisation ?
  1414   1432           <<- __else__ and \0.endswith("à") ->> la|là                                                 # Erreur de numérisation ?
  1415   1433           <<- __else__ ->> le|la                                                                      # Erreur de numérisation ?
  1416   1434   
  1417   1435   TEST: __ocr__ avec {{1e}} chien du policier
  1418   1436   TEST: __ocr__ il le jura sur {{1a}} tête de sa mère
  1419   1437   TEST: __ocr__ {{1c}} chat du voinsin est idiot
         1438  +TEST: __ocr__ {{[e}} chien a faim
  1420   1439   
  1421   1440   
  1422   1441   __[i]/ocr(ocr_les)__
  1423         -    1[ea]s
         1442  +    [1[][ea]s
  1424   1443           <<- ->> les                                                                                 # Erreur de numérisation ?
  1425   1444   
  1426   1445   TEST: __ocr__ {{1es}} jours clairs
         1446  +TEST: __ocr__ {{[as}} amis sont présents
  1427   1447   
  1428   1448   
  1429   1449   __[i]/ocr(ocr_l_regex)__
  1430         -    (1’)[aâeéèêëiîïoôuyh][\w-]*  @@0
         1450  +    ([1[][’'`‘])[aâeéèêëiîïoôuyh][\w-]*  @@0
  1431   1451           <<- -1>> l’|L’|j’|J’                                                                        # Erreur de numérisation ?
  1432   1452   
  1433   1453   TEST: __ocr__ {{1’}}année s’annonce agitée.
         1454  +TEST: __ocr__ {{['}}ouverture du championnat est pour bientôt.
  1434   1455   
  1435   1456   
  1436   1457   __[i]/ocr(ocr_il_regex)__
  1437   1458       1fs?
  1438   1459           <<- \0.endswith("s") ->> Ils|ils|ifs                                                        # Erreur de numérisation ?
  1439   1460           <<- __else__ ->> Il|il|if                                                                   # Erreur de numérisation ?
  1440   1461   
................................................................................
  2268   2289   TEST: __ocr__ s’habituer à se faire servir, {{Au}} début ça                     ->> au
  2269   2290   TEST: __ocr__ Tu as tué ce petit garçon, Henri, {{Et}} tu le sais.              ->> et
  2270   2291   TEST: __ocr__ d’un fil de plastique transparent, {{Il}} l’agite                 ->> il
  2271   2292   TEST: __ocr__ sur une glace noire {{Les}} lumières du port                      ->> les
  2272   2293   TEST: __ocr__ le roulis du bateau {{Le}} faisant heurter                        ->> le
  2273   2294   TEST: __ocr__ si vous {{La}} désirez                                            ->> la
  2274   2295   TEST: __ocr__ sa main se referme sur {{Je}} livre                               ->> je
  2275         -TEST: __ocr__ Ils étaient portés à croire que Danton et Robespierre ne mettraient aucun obstacle. Le 8 au soir, Robespierre était allé à la section Bonne-Nouvelle, avait invectivé violemment contre la Gironde. Pendant son discours, un des siens, qui l’attendait à la porte, disait qu’on devrait massacrer non les Girondins seulement, mais tous les signataires des fameuses pétitions.
         2296  +TEST: __ocr__ Ils étaient portés à croire que Danton et Robespierre ne mettraient aucun obstacle. Le 8 au soir, Robespierre était allé à la section {{Bonne-Nouvelle}}, avait invectivé violemment contre la Gironde. Pendant son discours, un des siens, qui l’attendait à la porte, disait qu’on devrait massacrer non les Girondins seulement, mais tous les signataires des fameuses pétitions.
  2276   2297   TEST: __ocr__ Prends cette pelle et creuse.
  2277   2298   TEST: __ocr__ Roland, 87 ans, amoureux depuis cinq ans : « J’ai l’impression que je vais vivre encore longtemps »
  2278   2299   TEST: __ocr__ QUE FAIRE D’APRÈS EUX ?
  2279   2300   
  2280   2301   
  2281   2302   # virgules
  2282   2303   __ocr_virgules__
................................................................................
  2522   2543   # fille / tille
  2523   2544   __ocr_fille__
  2524   2545       tille
  2525   2546           <<- ->> fille                                                                               # Erreur de numérisation ?
  2526   2547   
  2527   2548   TEST: __ocr__ Cette {{tille}} n’en avait jamais assez.
  2528   2549   
         2550  +
         2551  +# fout / font
         2552  +__ocr_font__
         2553  +    fout
         2554  +        <<- not value(<1, "|il|elle|on|") and not value(<2, "|il|elle|on|") ->> font                # Erreur de numérisation ?
         2555  +
         2556  +TEST: __ocr__ qui ne {{fout}} rien de leur journée
         2557  +
  2529   2558   
  2530   2559   # fut / rut
  2531   2560   __ocr_fut__
  2532   2561       rut
  2533   2562           <<- ->> fut                                                                                 # Erreur de numérisation ?
  2534   2563   
  2535   2564   TEST: __ocr__ ce petit {{rut}} traité comme un chien
................................................................................
  2926   2955   
  2927   2956       vine
  2928   2957           <<- ->> une                                                                                 # Erreur de numérisation ?
  2929   2958   
  2930   2959   TEST: __ocr__ il avait {{ure}} femme élégante et silencieuse
  2931   2960   TEST: __ocr__ c’est pour {{vine}} amie
  2932   2961   
         2962  +
         2963  +# vêtement / vêlement
         2964  +__ocr_vêtement__
         2965  +    >vêlement
         2966  +        <<- ->> =\1.replace("l", "t").replace("L", "T")                                             # Erreur de numérisation ?
         2967  +
         2968  +TEST: __ocr__ il enfila ses {{vêlements}} en hâte.
         2969  +
  2933   2970   
  2934   2971   # vous / voua / voue
  2935   2972   __ocr_vous__
  2936   2973       [voue|voua]
  2937   2974           <<- ->> vous                                                                                # Erreur de numérisation ?
  2938   2975   
  2939   2976   TEST: __ocr__ avec {{voue}}, je n’ai pas confiance.
................................................................................
  3395   3432   
  3396   3433       avant hier
  3397   3434           <<- /tu/ ->> avant-hier                                 # Il manque un trait d’union.
  3398   3435   
  3399   3436       [basket|volley] ball
  3400   3437           <<- /tu/ ->> \1-ball                                    # Il manque un trait d’union.
  3401   3438   
         3439  +    bas [>côté|coté|cotés]
         3440  +        <<- morph(<1 , ":D") ->> bas-côté|bas-côtés             # Il manque un trait d’union.
         3441  +
  3402   3442       [les|des|aux] beaux arts
  3403   3443           <<- /tu/ -2:3>> beaux-arts                              # Il manque un trait d’union.
  3404   3444   
  3405   3445       bouche à [bouche|>oreille]
  3406   3446           <<- /tu/ morph(<1, ":D") ->> \1-\2-\3                   # Il manque les traits d’union.
  3407   3447   
  3408   3448       c’ est [à|a] dire