Grammalecte  Hex Artifact Content

Artifact 346704203c15fa20e9280dd5d4e13d694929336ed3d8564c6e11feed641c63d3:


0000: 23 21 70 79 74 68 6f 6e 33 0a 0a 23 20 4c 65 78  #!python3..# Lex
0010: 69 63 6f 6e 20 62 75 69 6c 64 65 72 0a 0a 69 6d  icon builder..im
0020: 70 6f 72 74 20 61 72 67 70 61 72 73 65 0a 66 72  port argparse.fr
0030: 6f 6d 20 64 69 73 74 75 74 69 6c 73 20 69 6d 70  om distutils imp
0040: 6f 72 74 20 64 69 72 5f 75 74 69 6c 0a 0a 69 6d  ort dir_util..im
0050: 70 6f 72 74 20 67 72 61 70 68 73 70 65 6c 6c 2e  port graphspell.
0060: 64 61 77 67 20 61 73 20 66 73 61 0a 66 72 6f 6d  dawg as fsa.from
0070: 20 67 72 61 70 68 73 70 65 6c 6c 2e 69 62 64 61   graphspell.ibda
0080: 77 67 20 69 6d 70 6f 72 74 20 49 42 44 41 57 47  wg import IBDAWG
0090: 0a 0a 0a 64 65 66 20 62 75 69 6c 64 20 28 73 70  ...def build (sp
00a0: 66 53 72 63 2c 20 73 4c 61 6e 67 43 6f 64 65 2c  fSrc, sLangCode,
00b0: 20 73 4c 61 6e 67 4e 61 6d 65 2c 20 73 66 44 69   sLangName, sfDi
00c0: 63 74 2c 20 62 4a 53 4f 4e 3d 46 61 6c 73 65 2c  ct, bJSON=False,
00d0: 20 73 44 69 63 4e 61 6d 65 3d 22 22 2c 20 73 46   sDicName="", sF
00e0: 69 6c 74 65 72 3d 22 22 2c 20 63 53 74 65 6d 6d  ilter="", cStemm
00f0: 69 6e 67 4d 65 74 68 6f 64 3d 22 53 22 2c 20 6e  ingMethod="S", n
0100: 43 6f 6d 70 72 65 73 73 4d 65 74 68 6f 64 3d 31  CompressMethod=1
0110: 29 3a 0a 20 20 20 20 22 74 72 61 6e 73 66 6f 72  ):.    "transfor
0120: 6d 20 61 20 74 65 78 74 20 6c 65 78 69 63 6f 6e  m a text lexicon
0130: 20 61 73 20 61 20 62 69 6e 61 72 79 20 69 6e 64   as a binary ind
0140: 65 78 61 62 6c 65 20 64 69 63 74 69 6f 6e 61 72  exable dictionar
0150: 79 22 0a 20 20 20 20 6f 44 41 57 47 20 3d 20 66  y".    oDAWG = f
0160: 73 61 2e 44 41 57 47 28 73 70 66 53 72 63 2c 20  sa.DAWG(spfSrc, 
0170: 63 53 74 65 6d 6d 69 6e 67 4d 65 74 68 6f 64 2c  cStemmingMethod,
0180: 20 73 4c 61 6e 67 43 6f 64 65 2c 20 73 4c 61 6e   sLangCode, sLan
0190: 67 4e 61 6d 65 2c 20 73 44 69 63 4e 61 6d 65 2c  gName, sDicName,
01a0: 20 73 46 69 6c 74 65 72 29 0a 20 20 20 20 64 69   sFilter).    di
01b0: 72 5f 75 74 69 6c 2e 6d 6b 70 61 74 68 28 22 67  r_util.mkpath("g
01c0: 72 61 70 68 73 70 65 6c 6c 2f 5f 64 69 63 74 69  raphspell/_dicti
01d0: 6f 6e 61 72 69 65 73 22 29 0a 20 20 20 20 6f 44  onaries").    oD
01e0: 41 57 47 2e 77 72 69 74 65 49 6e 66 6f 28 22 67  AWG.writeInfo("g
01f0: 72 61 70 68 73 70 65 6c 6c 2f 5f 64 69 63 74 69  raphspell/_dicti
0200: 6f 6e 61 72 69 65 73 2f 22 20 2b 20 73 66 44 69  onaries/" + sfDi
0210: 63 74 20 2b 20 22 2e 69 6e 66 6f 2e 74 78 74 22  ct + ".info.txt"
0220: 29 0a 20 20 20 20 6f 44 41 57 47 2e 77 72 69 74  ).    oDAWG.writ
0230: 65 42 69 6e 61 72 79 28 22 67 72 61 70 68 73 70  eBinary("graphsp
0240: 65 6c 6c 2f 5f 64 69 63 74 69 6f 6e 61 72 69 65  ell/_dictionarie
0250: 73 2f 22 20 2b 20 73 66 44 69 63 74 20 2b 20 22  s/" + sfDict + "
0260: 2e 62 64 69 63 22 2c 20 69 6e 74 28 6e 43 6f 6d  .bdic", int(nCom
0270: 70 72 65 73 73 4d 65 74 68 6f 64 29 29 0a 20 20  pressMethod)).  
0280: 20 20 69 66 20 62 4a 53 4f 4e 3a 0a 20 20 20 20    if bJSON:.    
0290: 20 20 20 20 64 69 72 5f 75 74 69 6c 2e 6d 6b 70      dir_util.mkp
02a0: 61 74 68 28 22 67 72 61 70 68 73 70 65 6c 6c 2d  ath("graphspell-
02b0: 6a 73 2f 5f 64 69 63 74 69 6f 6e 61 72 69 65 73  js/_dictionaries
02c0: 22 29 0a 20 20 20 20 20 20 20 20 6f 44 69 63 20  ").        oDic 
02d0: 3d 20 49 42 44 41 57 47 28 73 66 44 69 63 74 20  = IBDAWG(sfDict 
02e0: 2b 20 22 2e 62 64 69 63 22 29 0a 20 20 20 20 20  + ".bdic").     
02f0: 20 20 20 6f 44 69 63 2e 77 72 69 74 65 41 73 4a     oDic.writeAsJ
0300: 53 4f 62 6a 65 63 74 28 22 67 72 61 70 68 73 70  SObject("graphsp
0310: 65 6c 6c 2d 6a 73 2f 5f 64 69 63 74 69 6f 6e 61  ell-js/_dictiona
0320: 72 69 65 73 2f 22 20 2b 20 73 66 44 69 63 74 20  ries/" + sfDict 
0330: 2b 20 22 2e 6a 73 6f 6e 22 2c 20 62 42 69 6e 61  + ".json", bBina
0340: 72 79 44 69 63 74 41 73 48 65 78 53 74 72 69 6e  ryDictAsHexStrin
0350: 67 3d 54 72 75 65 29 0a 0a 0a 64 65 66 20 6d 61  g=True)...def ma
0360: 69 6e 20 28 29 3a 0a 20 20 20 20 78 50 61 72 73  in ():.    xPars
0370: 65 72 20 3d 20 61 72 67 70 61 72 73 65 2e 41 72  er = argparse.Ar
0380: 67 75 6d 65 6e 74 50 61 72 73 65 72 28 29 0a 20  gumentParser(). 
0390: 20 20 20 78 50 61 72 73 65 72 2e 61 64 64 5f 61     xParser.add_a
03a0: 72 67 75 6d 65 6e 74 28 22 73 72 63 5f 6c 65 78  rgument("src_lex
03b0: 69 63 6f 6e 22 2c 20 74 79 70 65 3d 73 74 72 2c  icon", type=str,
03c0: 20 68 65 6c 70 3d 22 70 61 74 68 20 61 6e 64 20   help="path and 
03d0: 66 69 6c 65 20 6e 61 6d 65 20 6f 66 20 74 68 65  file name of the
03e0: 20 73 6f 75 72 63 65 20 6c 65 78 69 63 6f 6e 22   source lexicon"
03f0: 29 0a 20 20 20 20 78 50 61 72 73 65 72 2e 61 64  ).    xParser.ad
0400: 64 5f 61 72 67 75 6d 65 6e 74 28 22 6c 61 6e 67  d_argument("lang
0410: 5f 63 6f 64 65 22 2c 20 74 79 70 65 3d 73 74 72  _code", type=str
0420: 2c 20 68 65 6c 70 3d 22 6c 61 6e 67 75 61 67 65  , help="language
0430: 20 63 6f 64 65 22 29 0a 20 20 20 20 78 50 61 72   code").    xPar
0440: 73 65 72 2e 61 64 64 5f 61 72 67 75 6d 65 6e 74  ser.add_argument
0450: 28 22 6c 61 6e 67 5f 6e 61 6d 65 22 2c 20 74 79  ("lang_name", ty
0460: 70 65 3d 73 74 72 2c 20 68 65 6c 70 3d 22 6c 61  pe=str, help="la
0470: 6e 67 75 61 67 65 20 6e 61 6d 65 22 29 0a 20 20  nguage name").  
0480: 20 20 78 50 61 72 73 65 72 2e 61 64 64 5f 61 72    xParser.add_ar
0490: 67 75 6d 65 6e 74 28 22 64 69 63 5f 66 69 6c 65  gument("dic_file
04a0: 6e 61 6d 65 22 2c 20 74 79 70 65 3d 73 74 72 2c  name", type=str,
04b0: 20 68 65 6c 70 3d 22 64 69 63 74 69 6f 6e 61 72   help="dictionar
04c0: 79 20 66 69 6c 65 20 6e 61 6d 65 20 28 77 69 74  y file name (wit
04d0: 68 6f 75 74 20 65 78 74 65 6e 73 69 6f 6e 29 22  hout extension)"
04e0: 29 0a 20 20 20 20 78 50 61 72 73 65 72 2e 61 64  ).    xParser.ad
04f0: 64 5f 61 72 67 75 6d 65 6e 74 28 22 2d 6a 73 22  d_argument("-js"
0500: 2c 20 22 2d 2d 6a 73 6f 6e 22 2c 20 68 65 6c 70  , "--json", help
0510: 3d 22 42 75 69 6c 64 20 64 69 63 74 69 6f 6e 61  ="Build dictiona
0520: 72 79 20 69 6e 20 4a 53 4f 4e 22 2c 20 61 63 74  ry in JSON", act
0530: 69 6f 6e 3d 22 73 74 6f 72 65 5f 74 72 75 65 22  ion="store_true"
0540: 29 0a 20 20 20 20 78 50 61 72 73 65 72 2e 61 64  ).    xParser.ad
0550: 64 5f 61 72 67 75 6d 65 6e 74 28 22 2d 73 22 2c  d_argument("-s",
0560: 20 22 2d 2d 73 74 65 6d 6d 69 6e 67 22 2c 20 68   "--stemming", h
0570: 65 6c 70 3d 22 73 74 65 6d 6d 69 6e 67 20 6d 65  elp="stemming me
0580: 74 68 6f 64 3a 20 53 3d 73 75 66 66 69 78 65 73  thod: S=suffixes
0590: 2c 20 41 3d 61 66 66 69 78 65 73 2c 20 4e 3d 6e  , A=affixes, N=n
05a0: 6f 20 73 74 65 6d 6d 69 6e 67 22 2c 20 74 79 70  o stemming", typ
05b0: 65 3d 73 74 72 2c 20 63 68 6f 69 63 65 73 3d 5b  e=str, choices=[
05c0: 22 53 22 2c 20 22 41 22 2c 20 22 4e 22 5d 2c 20  "S", "A", "N"], 
05d0: 64 65 66 61 75 6c 74 3d 22 53 22 29 0a 20 20 20  default="S").   
05e0: 20 78 50 61 72 73 65 72 2e 61 64 64 5f 61 72 67   xParser.add_arg
05f0: 75 6d 65 6e 74 28 22 2d 63 22 2c 20 22 2d 2d 63  ument("-c", "--c
0600: 6f 6d 70 72 65 73 73 22 2c 20 68 65 6c 70 3d 22  ompress", help="
0610: 63 6f 6d 70 72 65 73 73 69 6f 6e 20 6d 65 74 68  compression meth
0620: 6f 64 3a 20 31 2c 20 32 20 28 62 65 74 61 29 2c  od: 1, 2 (beta),
0630: 20 33 2c 20 28 62 65 74 61 29 22 2c 20 74 79 70   3, (beta)", typ
0640: 65 3d 69 6e 74 2c 20 63 68 6f 69 63 65 73 3d 5b  e=int, choices=[
0650: 31 2c 20 32 2c 20 33 5d 2c 20 64 65 66 61 75 6c  1, 2, 3], defaul
0660: 74 3d 31 29 0a 20 20 20 20 78 41 72 67 73 20 3d  t=1).    xArgs =
0670: 20 78 50 61 72 73 65 72 2e 70 61 72 73 65 5f 61   xParser.parse_a
0680: 72 67 73 28 29 0a 20 20 20 20 62 75 69 6c 64 28  rgs().    build(
0690: 78 41 72 67 73 2e 73 72 63 5f 6c 65 78 69 63 6f  xArgs.src_lexico
06a0: 6e 2c 20 78 41 72 67 73 2e 6c 61 6e 67 5f 63 6f  n, xArgs.lang_co
06b0: 64 65 2c 20 78 41 72 67 73 2e 6c 61 6e 67 5f 6e  de, xArgs.lang_n
06c0: 61 6d 65 2c 20 78 41 72 67 73 2e 64 69 63 5f 66  ame, xArgs.dic_f
06d0: 69 6c 65 6e 61 6d 65 2c 20 78 41 72 67 73 2e 6a  ilename, xArgs.j
06e0: 73 6f 6e 29 0a 20 20 20 20 0a 0a 69 66 20 5f 5f  son).    ..if __
06f0: 6e 61 6d 65 5f 5f 20 3d 3d 20 27 5f 5f 6d 61 69  name__ == '__mai
0700: 6e 5f 5f 27 3a 0a 20 20 20 20 6d 61 69 6e 28 29  n__':.    main()
0710: 0a                                               .