Grammalecte  Hex Artifact Content

Artifact 41cc230f34f1de2a6ce6e864b0ad29335772a503ce3786cab40edea95633ee36:


0000: 23 21 70 79 74 68 6f 6e 33 0a 0a 23 20 4c 65 78  #!python3..# Lex
0010: 69 63 6f 6e 20 62 75 69 6c 64 65 72 0a 0a 69 6d  icon builder..im
0020: 70 6f 72 74 20 61 72 67 70 61 72 73 65 0a 66 72  port argparse.fr
0030: 6f 6d 20 64 69 73 74 75 74 69 6c 73 20 69 6d 70  om distutils imp
0040: 6f 72 74 20 64 69 72 5f 75 74 69 6c 0a 0a 69 6d  ort dir_util..im
0050: 70 6f 72 74 20 67 72 61 70 68 73 70 65 6c 6c 2e  port graphspell.
0060: 64 61 77 67 20 61 73 20 66 73 61 0a 66 72 6f 6d  dawg as fsa.from
0070: 20 67 72 61 70 68 73 70 65 6c 6c 2e 69 62 64 61   graphspell.ibda
0080: 77 67 20 69 6d 70 6f 72 74 20 49 42 44 41 57 47  wg import IBDAWG
0090: 0a 0a 0a 64 65 66 20 62 75 69 6c 64 20 28 73 70  ...def build (sp
00a0: 66 53 72 63 2c 20 73 4c 61 6e 67 43 6f 64 65 2c  fSrc, sLangCode,
00b0: 20 73 4c 61 6e 67 4e 61 6d 65 2c 20 73 66 44 69   sLangName, sfDi
00c0: 63 74 2c 20 62 4a 53 4f 4e 3d 46 61 6c 73 65 2c  ct, bJSON=False,
00d0: 20 73 44 69 63 4e 61 6d 65 3d 22 22 2c 20 63 53   sDicName="", cS
00e0: 74 65 6d 6d 69 6e 67 4d 65 74 68 6f 64 3d 22 53  temmingMethod="S
00f0: 22 2c 20 6e 43 6f 6d 70 72 65 73 73 4d 65 74 68  ", nCompressMeth
0100: 6f 64 3d 31 29 3a 0a 20 20 20 20 22 74 72 61 6e  od=1):.    "tran
0110: 73 66 6f 72 6d 20 61 20 74 65 78 74 20 6c 65 78  sform a text lex
0120: 69 63 6f 6e 20 61 73 20 61 20 62 69 6e 61 72 79  icon as a binary
0130: 20 69 6e 64 65 78 61 62 6c 65 20 64 69 63 74 69   indexable dicti
0140: 6f 6e 61 72 79 22 0a 20 20 20 20 6f 44 41 57 47  onary".    oDAWG
0150: 20 3d 20 66 73 61 2e 44 41 57 47 28 73 70 66 53   = fsa.DAWG(spfS
0160: 72 63 2c 20 63 53 74 65 6d 6d 69 6e 67 4d 65 74  rc, cStemmingMet
0170: 68 6f 64 2c 20 73 4c 61 6e 67 43 6f 64 65 2c 20  hod, sLangCode, 
0180: 73 4c 61 6e 67 4e 61 6d 65 2c 20 73 44 69 63 4e  sLangName, sDicN
0190: 61 6d 65 29 0a 20 20 20 20 64 69 72 5f 75 74 69  ame).    dir_uti
01a0: 6c 2e 6d 6b 70 61 74 68 28 22 67 72 61 70 68 73  l.mkpath("graphs
01b0: 70 65 6c 6c 2f 5f 64 69 63 74 69 6f 6e 61 72 69  pell/_dictionari
01c0: 65 73 22 29 0a 20 20 20 20 6f 44 41 57 47 2e 77  es").    oDAWG.w
01d0: 72 69 74 65 49 6e 66 6f 28 22 67 72 61 70 68 73  riteInfo("graphs
01e0: 70 65 6c 6c 2f 5f 64 69 63 74 69 6f 6e 61 72 69  pell/_dictionari
01f0: 65 73 2f 22 20 2b 20 73 66 44 69 63 74 20 2b 20  es/" + sfDict + 
0200: 22 2e 69 6e 66 6f 2e 74 78 74 22 29 0a 20 20 20  ".info.txt").   
0210: 20 6f 44 41 57 47 2e 63 72 65 61 74 65 42 69 6e   oDAWG.createBin
0220: 61 72 79 28 22 67 72 61 70 68 73 70 65 6c 6c 2f  ary("graphspell/
0230: 5f 64 69 63 74 69 6f 6e 61 72 69 65 73 2f 22 20  _dictionaries/" 
0240: 2b 20 73 66 44 69 63 74 20 2b 20 22 2e 62 64 69  + sfDict + ".bdi
0250: 63 22 2c 20 69 6e 74 28 6e 43 6f 6d 70 72 65 73  c", int(nCompres
0260: 73 4d 65 74 68 6f 64 29 29 0a 20 20 20 20 69 66  sMethod)).    if
0270: 20 62 4a 53 4f 4e 3a 0a 20 20 20 20 20 20 20 20   bJSON:.        
0280: 64 69 72 5f 75 74 69 6c 2e 6d 6b 70 61 74 68 28  dir_util.mkpath(
0290: 22 67 72 61 70 68 73 70 65 6c 6c 2d 6a 73 2f 5f  "graphspell-js/_
02a0: 64 69 63 74 69 6f 6e 61 72 69 65 73 22 29 0a 20  dictionaries"). 
02b0: 20 20 20 20 20 20 20 6f 44 69 63 20 3d 20 49 42         oDic = IB
02c0: 44 41 57 47 28 73 66 44 69 63 74 20 2b 20 22 2e  DAWG(sfDict + ".
02d0: 62 64 69 63 22 29 0a 20 20 20 20 20 20 20 20 6f  bdic").        o
02e0: 44 69 63 2e 77 72 69 74 65 41 73 4a 53 4f 62 6a  Dic.writeAsJSObj
02f0: 65 63 74 28 22 67 72 61 70 68 73 70 65 6c 6c 2d  ect("graphspell-
0300: 6a 73 2f 5f 64 69 63 74 69 6f 6e 61 72 69 65 73  js/_dictionaries
0310: 2f 22 20 2b 20 73 66 44 69 63 74 20 2b 20 22 2e  /" + sfDict + ".
0320: 6a 73 6f 6e 22 2c 20 62 42 69 6e 61 72 79 44 69  json", bBinaryDi
0330: 63 74 41 73 48 65 78 53 74 72 69 6e 67 3d 54 72  ctAsHexString=Tr
0340: 75 65 29 0a 0a 0a 64 65 66 20 6d 61 69 6e 20 28  ue)...def main (
0350: 29 3a 0a 20 20 20 20 78 50 61 72 73 65 72 20 3d  ):.    xParser =
0360: 20 61 72 67 70 61 72 73 65 2e 41 72 67 75 6d 65   argparse.Argume
0370: 6e 74 50 61 72 73 65 72 28 29 0a 20 20 20 20 78  ntParser().    x
0380: 50 61 72 73 65 72 2e 61 64 64 5f 61 72 67 75 6d  Parser.add_argum
0390: 65 6e 74 28 22 73 72 63 5f 6c 65 78 69 63 6f 6e  ent("src_lexicon
03a0: 22 2c 20 74 79 70 65 3d 73 74 72 2c 20 68 65 6c  ", type=str, hel
03b0: 70 3d 22 70 61 74 68 20 61 6e 64 20 66 69 6c 65  p="path and file
03c0: 20 6e 61 6d 65 20 6f 66 20 74 68 65 20 73 6f 75   name of the sou
03d0: 72 63 65 20 6c 65 78 69 63 6f 6e 22 29 0a 20 20  rce lexicon").  
03e0: 20 20 78 50 61 72 73 65 72 2e 61 64 64 5f 61 72    xParser.add_ar
03f0: 67 75 6d 65 6e 74 28 22 6c 61 6e 67 5f 63 6f 64  gument("lang_cod
0400: 65 22 2c 20 74 79 70 65 3d 73 74 72 2c 20 68 65  e", type=str, he
0410: 6c 70 3d 22 6c 61 6e 67 75 61 67 65 20 63 6f 64  lp="language cod
0420: 65 22 29 0a 20 20 20 20 78 50 61 72 73 65 72 2e  e").    xParser.
0430: 61 64 64 5f 61 72 67 75 6d 65 6e 74 28 22 6c 61  add_argument("la
0440: 6e 67 5f 6e 61 6d 65 22 2c 20 74 79 70 65 3d 73  ng_name", type=s
0450: 74 72 2c 20 68 65 6c 70 3d 22 6c 61 6e 67 75 61  tr, help="langua
0460: 67 65 20 6e 61 6d 65 22 29 0a 20 20 20 20 78 50  ge name").    xP
0470: 61 72 73 65 72 2e 61 64 64 5f 61 72 67 75 6d 65  arser.add_argume
0480: 6e 74 28 22 64 69 63 5f 66 69 6c 65 6e 61 6d 65  nt("dic_filename
0490: 22 2c 20 74 79 70 65 3d 73 74 72 2c 20 68 65 6c  ", type=str, hel
04a0: 70 3d 22 64 69 63 74 69 6f 6e 61 72 79 20 66 69  p="dictionary fi
04b0: 6c 65 20 6e 61 6d 65 20 28 77 69 74 68 6f 75 74  le name (without
04c0: 20 65 78 74 65 6e 73 69 6f 6e 29 22 29 0a 20 20   extension)").  
04d0: 20 20 78 50 61 72 73 65 72 2e 61 64 64 5f 61 72    xParser.add_ar
04e0: 67 75 6d 65 6e 74 28 22 2d 6a 73 22 2c 20 22 2d  gument("-js", "-
04f0: 2d 6a 73 6f 6e 22 2c 20 68 65 6c 70 3d 22 42 75  -json", help="Bu
0500: 69 6c 64 20 64 69 63 74 69 6f 6e 61 72 79 20 69  ild dictionary i
0510: 6e 20 4a 53 4f 4e 22 2c 20 61 63 74 69 6f 6e 3d  n JSON", action=
0520: 22 73 74 6f 72 65 5f 74 72 75 65 22 29 0a 20 20  "store_true").  
0530: 20 20 78 50 61 72 73 65 72 2e 61 64 64 5f 61 72    xParser.add_ar
0540: 67 75 6d 65 6e 74 28 22 2d 73 22 2c 20 22 2d 2d  gument("-s", "--
0550: 73 74 65 6d 6d 69 6e 67 22 2c 20 68 65 6c 70 3d  stemming", help=
0560: 22 73 74 65 6d 6d 69 6e 67 20 6d 65 74 68 6f 64  "stemming method
0570: 3a 20 53 3d 73 75 66 66 69 78 65 73 2c 20 41 3d  : S=suffixes, A=
0580: 61 66 66 69 78 65 73 2c 20 4e 3d 6e 6f 20 73 74  affixes, N=no st
0590: 65 6d 6d 69 6e 67 22 2c 20 74 79 70 65 3d 73 74  emming", type=st
05a0: 72 2c 20 63 68 6f 69 63 65 73 3d 5b 22 53 22 2c  r, choices=["S",
05b0: 20 22 41 22 2c 20 22 4e 22 5d 2c 20 64 65 66 61   "A", "N"], defa
05c0: 75 6c 74 3d 22 53 22 29 0a 20 20 20 20 78 50 61  ult="S").    xPa
05d0: 72 73 65 72 2e 61 64 64 5f 61 72 67 75 6d 65 6e  rser.add_argumen
05e0: 74 28 22 2d 63 22 2c 20 22 2d 2d 63 6f 6d 70 72  t("-c", "--compr
05f0: 65 73 73 22 2c 20 68 65 6c 70 3d 22 63 6f 6d 70  ess", help="comp
0600: 72 65 73 73 69 6f 6e 20 6d 65 74 68 6f 64 3a 20  ression method: 
0610: 31 2c 20 32 20 28 62 65 74 61 29 2c 20 33 2c 20  1, 2 (beta), 3, 
0620: 28 62 65 74 61 29 22 2c 20 74 79 70 65 3d 69 6e  (beta)", type=in
0630: 74 2c 20 63 68 6f 69 63 65 73 3d 5b 31 2c 20 32  t, choices=[1, 2
0640: 2c 20 33 5d 2c 20 64 65 66 61 75 6c 74 3d 31 29  , 3], default=1)
0650: 0a 20 20 20 20 78 41 72 67 73 20 3d 20 78 50 61  .    xArgs = xPa
0660: 72 73 65 72 2e 70 61 72 73 65 5f 61 72 67 73 28  rser.parse_args(
0670: 29 0a 20 20 20 20 62 75 69 6c 64 28 78 41 72 67  ).    build(xArg
0680: 73 2e 73 72 63 5f 6c 65 78 69 63 6f 6e 2c 20 78  s.src_lexicon, x
0690: 41 72 67 73 2e 6c 61 6e 67 5f 63 6f 64 65 2c 20  Args.lang_code, 
06a0: 78 41 72 67 73 2e 6c 61 6e 67 5f 6e 61 6d 65 2c  xArgs.lang_name,
06b0: 20 78 41 72 67 73 2e 64 69 63 5f 66 69 6c 65 6e   xArgs.dic_filen
06c0: 61 6d 65 2c 20 78 41 72 67 73 2e 6a 73 6f 6e 29  ame, xArgs.json)
06d0: 0a 20 20 20 20 0a 0a 69 66 20 5f 5f 6e 61 6d 65  .    ..if __name
06e0: 5f 5f 20 3d 3d 20 27 5f 5f 6d 61 69 6e 5f 5f 27  __ == '__main__'
06f0: 3a 0a 20 20 20 20 6d 61 69 6e 28 29 0a           :.    main().