Grammalecte  Hex Artifact Content

Artifact 0d00b0770391e6484ddfc016513b698c0b3333befab80ea9b5cc6b02e356c77b:


0000: 23 21 70 79 74 68 6f 6e 33 0a 0a 22 22 22 0a 4c  #!python3..""".L
0010: 65 78 69 63 6f 6e 20 62 75 69 6c 64 65 72 0a 22  exicon builder."
0020: 22 22 0a 0a 69 6d 70 6f 72 74 20 61 72 67 70 61  ""..import argpa
0030: 72 73 65 0a 66 72 6f 6d 20 64 69 73 74 75 74 69  rse.from distuti
0040: 6c 73 20 69 6d 70 6f 72 74 20 64 69 72 5f 75 74  ls import dir_ut
0050: 69 6c 0a 0a 69 6d 70 6f 72 74 20 67 72 61 70 68  il..import graph
0060: 73 70 65 6c 6c 2e 64 61 77 67 20 61 73 20 66 73  spell.dawg as fs
0070: 61 0a 66 72 6f 6d 20 67 72 61 70 68 73 70 65 6c  a.from graphspel
0080: 6c 2e 69 62 64 61 77 67 20 69 6d 70 6f 72 74 20  l.ibdawg import 
0090: 49 42 44 41 57 47 0a 0a 0a 64 65 66 20 62 75 69  IBDAWG...def bui
00a0: 6c 64 20 28 73 70 66 53 72 63 2c 20 73 4c 61 6e  ld (spfSrc, sLan
00b0: 67 43 6f 64 65 2c 20 73 4c 61 6e 67 4e 61 6d 65  gCode, sLangName
00c0: 2c 20 73 66 44 69 63 74 2c 20 62 4a 53 4f 4e 3d  , sfDict, bJSON=
00d0: 46 61 6c 73 65 2c 20 73 44 69 63 4e 61 6d 65 3d  False, sDicName=
00e0: 22 22 2c 20 73 44 65 73 63 72 69 70 74 69 6f 6e  "", sDescription
00f0: 3d 22 22 2c 20 73 46 69 6c 74 65 72 3d 22 22 2c  ="", sFilter="",
0100: 20 63 53 74 65 6d 6d 69 6e 67 4d 65 74 68 6f 64   cStemmingMethod
0110: 3d 22 53 22 2c 20 6e 43 6f 6d 70 72 65 73 73 4d  ="S", nCompressM
0120: 65 74 68 6f 64 3d 31 29 3a 0a 20 20 20 20 22 74  ethod=1):.    "t
0130: 72 61 6e 73 66 6f 72 6d 20 61 20 74 65 78 74 20  ransform a text 
0140: 6c 65 78 69 63 6f 6e 20 61 73 20 61 20 62 69 6e  lexicon as a bin
0150: 61 72 79 20 69 6e 64 65 78 61 62 6c 65 20 64 69  ary indexable di
0160: 63 74 69 6f 6e 61 72 79 22 0a 20 20 20 20 6f 44  ctionary".    oD
0170: 41 57 47 20 3d 20 66 73 61 2e 44 41 57 47 28 73  AWG = fsa.DAWG(s
0180: 70 66 53 72 63 2c 20 63 53 74 65 6d 6d 69 6e 67  pfSrc, cStemming
0190: 4d 65 74 68 6f 64 2c 20 73 4c 61 6e 67 43 6f 64  Method, sLangCod
01a0: 65 2c 20 73 4c 61 6e 67 4e 61 6d 65 2c 20 73 44  e, sLangName, sD
01b0: 69 63 4e 61 6d 65 2c 20 73 44 65 73 63 72 69 70  icName, sDescrip
01c0: 74 69 6f 6e 2c 20 73 46 69 6c 74 65 72 29 0a 20  tion, sFilter). 
01d0: 20 20 20 64 69 72 5f 75 74 69 6c 2e 6d 6b 70 61     dir_util.mkpa
01e0: 74 68 28 22 67 72 61 70 68 73 70 65 6c 6c 2f 5f  th("graphspell/_
01f0: 64 69 63 74 69 6f 6e 61 72 69 65 73 22 29 0a 20  dictionaries"). 
0200: 20 20 20 6f 44 41 57 47 2e 77 72 69 74 65 49 6e     oDAWG.writeIn
0210: 66 6f 28 22 67 72 61 70 68 73 70 65 6c 6c 2f 5f  fo("graphspell/_
0220: 64 69 63 74 69 6f 6e 61 72 69 65 73 2f 22 20 2b  dictionaries/" +
0230: 20 73 66 44 69 63 74 20 2b 20 22 2e 69 6e 66 6f   sfDict + ".info
0240: 2e 74 78 74 22 29 0a 20 20 20 20 6f 44 41 57 47  .txt").    oDAWG
0250: 2e 77 72 69 74 65 42 69 6e 61 72 79 28 22 67 72  .writeBinary("gr
0260: 61 70 68 73 70 65 6c 6c 2f 5f 64 69 63 74 69 6f  aphspell/_dictio
0270: 6e 61 72 69 65 73 2f 22 20 2b 20 73 66 44 69 63  naries/" + sfDic
0280: 74 20 2b 20 22 2e 62 64 69 63 22 2c 20 69 6e 74  t + ".bdic", int
0290: 28 6e 43 6f 6d 70 72 65 73 73 4d 65 74 68 6f 64  (nCompressMethod
02a0: 29 29 0a 20 20 20 20 69 66 20 62 4a 53 4f 4e 3a  )).    if bJSON:
02b0: 0a 20 20 20 20 20 20 20 20 64 69 72 5f 75 74 69  .        dir_uti
02c0: 6c 2e 6d 6b 70 61 74 68 28 22 67 72 61 70 68 73  l.mkpath("graphs
02d0: 70 65 6c 6c 2d 6a 73 2f 5f 64 69 63 74 69 6f 6e  pell-js/_diction
02e0: 61 72 69 65 73 22 29 0a 20 20 20 20 20 20 20 20  aries").        
02f0: 6f 44 69 63 20 3d 20 49 42 44 41 57 47 28 73 66  oDic = IBDAWG(sf
0300: 44 69 63 74 20 2b 20 22 2e 62 64 69 63 22 29 0a  Dict + ".bdic").
0310: 20 20 20 20 20 20 20 20 6f 44 69 63 2e 77 72 69          oDic.wri
0320: 74 65 41 73 4a 53 4f 62 6a 65 63 74 28 22 67 72  teAsJSObject("gr
0330: 61 70 68 73 70 65 6c 6c 2d 6a 73 2f 5f 64 69 63  aphspell-js/_dic
0340: 74 69 6f 6e 61 72 69 65 73 2f 22 20 2b 20 73 66  tionaries/" + sf
0350: 44 69 63 74 20 2b 20 22 2e 6a 73 6f 6e 22 2c 20  Dict + ".json", 
0360: 62 42 69 6e 61 72 79 44 69 63 74 41 73 48 65 78  bBinaryDictAsHex
0370: 53 74 72 69 6e 67 3d 54 72 75 65 29 0a 0a 0a 64  String=True)...d
0380: 65 66 20 6d 61 69 6e 20 28 29 3a 0a 20 20 20 20  ef main ():.    
0390: 22 70 61 72 73 65 20 61 72 67 73 20 66 72 6f 6d  "parse args from
03a0: 20 43 4c 49 22 0a 20 20 20 20 78 50 61 72 73 65   CLI".    xParse
03b0: 72 20 3d 20 61 72 67 70 61 72 73 65 2e 41 72 67  r = argparse.Arg
03c0: 75 6d 65 6e 74 50 61 72 73 65 72 28 29 0a 20 20  umentParser().  
03d0: 20 20 78 50 61 72 73 65 72 2e 61 64 64 5f 61 72    xParser.add_ar
03e0: 67 75 6d 65 6e 74 28 22 73 72 63 5f 6c 65 78 69  gument("src_lexi
03f0: 63 6f 6e 22 2c 20 74 79 70 65 3d 73 74 72 2c 20  con", type=str, 
0400: 68 65 6c 70 3d 22 70 61 74 68 20 61 6e 64 20 66  help="path and f
0410: 69 6c 65 20 6e 61 6d 65 20 6f 66 20 74 68 65 20  ile name of the 
0420: 73 6f 75 72 63 65 20 6c 65 78 69 63 6f 6e 22 29  source lexicon")
0430: 0a 20 20 20 20 78 50 61 72 73 65 72 2e 61 64 64  .    xParser.add
0440: 5f 61 72 67 75 6d 65 6e 74 28 22 6c 61 6e 67 5f  _argument("lang_
0450: 63 6f 64 65 22 2c 20 74 79 70 65 3d 73 74 72 2c  code", type=str,
0460: 20 68 65 6c 70 3d 22 6c 61 6e 67 75 61 67 65 20   help="language 
0470: 63 6f 64 65 22 29 0a 20 20 20 20 78 50 61 72 73  code").    xPars
0480: 65 72 2e 61 64 64 5f 61 72 67 75 6d 65 6e 74 28  er.add_argument(
0490: 22 6c 61 6e 67 5f 6e 61 6d 65 22 2c 20 74 79 70  "lang_name", typ
04a0: 65 3d 73 74 72 2c 20 68 65 6c 70 3d 22 6c 61 6e  e=str, help="lan
04b0: 67 75 61 67 65 20 6e 61 6d 65 22 29 0a 20 20 20  guage name").   
04c0: 20 78 50 61 72 73 65 72 2e 61 64 64 5f 61 72 67   xParser.add_arg
04d0: 75 6d 65 6e 74 28 22 64 69 63 5f 66 69 6c 65 6e  ument("dic_filen
04e0: 61 6d 65 22 2c 20 74 79 70 65 3d 73 74 72 2c 20  ame", type=str, 
04f0: 68 65 6c 70 3d 22 64 69 63 74 69 6f 6e 61 72 79  help="dictionary
0500: 20 66 69 6c 65 20 6e 61 6d 65 20 28 77 69 74 68   file name (with
0510: 6f 75 74 20 65 78 74 65 6e 73 69 6f 6e 29 22 29  out extension)")
0520: 0a 20 20 20 20 78 50 61 72 73 65 72 2e 61 64 64  .    xParser.add
0530: 5f 61 72 67 75 6d 65 6e 74 28 22 2d 6a 73 22 2c  _argument("-js",
0540: 20 22 2d 2d 6a 73 6f 6e 22 2c 20 68 65 6c 70 3d   "--json", help=
0550: 22 42 75 69 6c 64 20 64 69 63 74 69 6f 6e 61 72  "Build dictionar
0560: 79 20 69 6e 20 4a 53 4f 4e 22 2c 20 61 63 74 69  y in JSON", acti
0570: 6f 6e 3d 22 73 74 6f 72 65 5f 74 72 75 65 22 29  on="store_true")
0580: 0a 20 20 20 20 78 50 61 72 73 65 72 2e 61 64 64  .    xParser.add
0590: 5f 61 72 67 75 6d 65 6e 74 28 22 2d 73 22 2c 20  _argument("-s", 
05a0: 22 2d 2d 73 74 65 6d 6d 69 6e 67 22 2c 20 68 65  "--stemming", he
05b0: 6c 70 3d 22 73 74 65 6d 6d 69 6e 67 20 6d 65 74  lp="stemming met
05c0: 68 6f 64 3a 20 53 3d 73 75 66 66 69 78 65 73 2c  hod: S=suffixes,
05d0: 20 41 3d 61 66 66 69 78 65 73 2c 20 4e 3d 6e 6f   A=affixes, N=no
05e0: 20 73 74 65 6d 6d 69 6e 67 22 2c 20 74 79 70 65   stemming", type
05f0: 3d 73 74 72 2c 20 63 68 6f 69 63 65 73 3d 5b 22  =str, choices=["
0600: 53 22 2c 20 22 41 22 2c 20 22 4e 22 5d 2c 20 64  S", "A", "N"], d
0610: 65 66 61 75 6c 74 3d 22 53 22 29 0a 20 20 20 20  efault="S").    
0620: 78 50 61 72 73 65 72 2e 61 64 64 5f 61 72 67 75  xParser.add_argu
0630: 6d 65 6e 74 28 22 2d 63 22 2c 20 22 2d 2d 63 6f  ment("-c", "--co
0640: 6d 70 72 65 73 73 22 2c 20 68 65 6c 70 3d 22 63  mpress", help="c
0650: 6f 6d 70 72 65 73 73 69 6f 6e 20 6d 65 74 68 6f  ompression metho
0660: 64 3a 20 31 2c 20 32 20 28 62 65 74 61 29 2c 20  d: 1, 2 (beta), 
0670: 33 2c 20 28 62 65 74 61 29 22 2c 20 74 79 70 65  3, (beta)", type
0680: 3d 69 6e 74 2c 20 63 68 6f 69 63 65 73 3d 5b 31  =int, choices=[1
0690: 2c 20 32 2c 20 33 5d 2c 20 64 65 66 61 75 6c 74  , 2, 3], default
06a0: 3d 31 29 0a 20 20 20 20 78 41 72 67 73 20 3d 20  =1).    xArgs = 
06b0: 78 50 61 72 73 65 72 2e 70 61 72 73 65 5f 61 72  xParser.parse_ar
06c0: 67 73 28 29 0a 20 20 20 20 62 75 69 6c 64 28 78  gs().    build(x
06d0: 41 72 67 73 2e 73 72 63 5f 6c 65 78 69 63 6f 6e  Args.src_lexicon
06e0: 2c 20 78 41 72 67 73 2e 6c 61 6e 67 5f 63 6f 64  , xArgs.lang_cod
06f0: 65 2c 20 78 41 72 67 73 2e 6c 61 6e 67 5f 6e 61  e, xArgs.lang_na
0700: 6d 65 2c 20 78 41 72 67 73 2e 64 69 63 5f 66 69  me, xArgs.dic_fi
0710: 6c 65 6e 61 6d 65 2c 20 78 41 72 67 73 2e 6a 73  lename, xArgs.js
0720: 6f 6e 29 0a 0a 0a 69 66 20 5f 5f 6e 61 6d 65 5f  on)...if __name_
0730: 5f 20 3d 3d 20 27 5f 5f 6d 61 69 6e 5f 5f 27 3a  _ == '__main__':
0740: 0a 20 20 20 20 6d 61 69 6e 28 29 0a              .    main().