Grammalecte  Hex Artifact Content

Artifact 35ba56f9bac683dfdddfe2b39144d622bf204c426ec752360b1f7bf0886672af:


0000: 23 21 70 79 74 68 6f 6e 33 0a 0a 22 22 22 0a 49  #!python3..""".I
0010: 4e 44 45 58 41 42 4c 45 20 42 49 4e 41 52 59 20  NDEXABLE BINARY 
0020: 44 49 52 45 43 54 20 41 43 59 43 4c 49 43 20 57  DIRECT ACYCLIC W
0030: 4f 52 44 20 47 52 41 50 48 0a 49 6d 70 6c 65 6d  ORD GRAPH.Implem
0040: 65 6e 74 61 74 69 6f 6e 20 6f 66 20 61 20 73 70  entation of a sp
0050: 65 6c 6c 63 68 65 63 6b 65 72 20 61 73 20 61 20  ellchecker as a 
0060: 74 72 61 6e 73 64 75 63 65 72 20 28 73 74 6f 72  transducer (stor
0070: 69 6e 67 20 74 72 61 6e 73 66 6f 72 6d 61 74 69  ing transformati
0080: 6f 6e 20 63 6f 64 65 20 74 6f 20 67 65 74 20 6c  on code to get l
0090: 65 6d 6d 61 20 61 6e 64 20 6d 6f 72 70 68 6f 6c  emma and morphol
00a0: 6f 67 69 65 73 29 0a 61 6e 64 20 61 20 73 70 65  ogies).and a spe
00b0: 6c 6c 20 73 75 67 67 65 73 74 69 6f 6e 20 6d 65  ll suggestion me
00c0: 63 68 61 6e 69 6d 0a 22 22 22 0a 0a 69 6d 70 6f  chanim."""..impo
00d0: 72 74 20 74 72 61 63 65 62 61 63 6b 0a 69 6d 70  rt traceback.imp
00e0: 6f 72 74 20 70 6b 67 75 74 69 6c 0a 69 6d 70 6f  ort pkgutil.impo
00f0: 72 74 20 72 65 0a 66 72 6f 6d 20 66 75 6e 63 74  rt re.from funct
0100: 6f 6f 6c 73 20 69 6d 70 6f 72 74 20 77 72 61 70  ools import wrap
0110: 73 0a 69 6d 70 6f 72 74 20 74 69 6d 65 0a 69 6d  s.import time.im
0120: 70 6f 72 74 20 6a 73 6f 6e 0a 69 6d 70 6f 72 74  port json.import
0130: 20 62 69 6e 61 73 63 69 69 0a 0a 23 69 6d 70 6f   binascii..#impo
0140: 72 74 20 6c 6f 67 67 69 6e 67 0a 23 6c 6f 67 67  rt logging.#logg
0150: 69 6e 67 2e 62 61 73 69 63 43 6f 6e 66 69 67 28  ing.basicConfig(
0160: 66 69 6c 65 6e 61 6d 65 3d 22 73 75 67 67 65 73  filename="sugges
0170: 74 69 6f 6e 73 2e 6c 6f 67 22 2c 20 6c 65 76 65  tions.log", leve
0180: 6c 3d 6c 6f 67 67 69 6e 67 2e 44 45 42 55 47 29  l=logging.DEBUG)
0190: 0a 0a 66 72 6f 6d 20 2e 20 69 6d 70 6f 72 74 20  ..from . import 
01a0: 73 74 72 5f 74 72 61 6e 73 66 6f 72 6d 20 61 73  str_transform as
01b0: 20 73 74 0a 66 72 6f 6d 20 2e 20 69 6d 70 6f 72   st.from . impor
01c0: 74 20 63 68 61 72 5f 70 6c 61 79 65 72 20 61 73  t char_player as
01d0: 20 63 70 0a 66 72 6f 6d 20 2e 65 63 68 6f 20 69   cp.from .echo i
01e0: 6d 70 6f 72 74 20 65 63 68 6f 0a 0a 0a 64 65 66  mport echo...def
01f0: 20 74 69 6d 65 74 68 69 73 20 28 66 75 6e 63 29   timethis (func)
0200: 3a 0a 20 20 20 20 22 64 65 63 6f 72 61 74 6f 72  :.    "decorator
0210: 20 66 6f 72 20 74 68 65 20 65 78 65 63 75 74 69   for the executi
0220: 6f 6e 20 74 69 6d 65 22 0a 20 20 20 20 40 77 72  on time".    @wr
0230: 61 70 73 28 66 75 6e 63 29 0a 20 20 20 20 64 65  aps(func).    de
0240: 66 20 77 72 61 70 70 65 72 20 28 2a 61 72 67 73  f wrapper (*args
0250: 2c 20 2a 2a 6b 77 61 72 67 73 29 3a 0a 20 20 20  , **kwargs):.   
0260: 20 20 20 20 20 22 73 6f 6d 65 74 68 69 6e 67 20       "something 
0270: 74 6f 20 70 72 65 76 65 6e 74 20 70 79 6c 69 6e  to prevent pylin
0280: 74 20 77 68 69 6e 69 6e 67 22 0a 20 20 20 20 20  t whining".     
0290: 20 20 20 66 53 74 61 72 74 20 3d 20 74 69 6d 65     fStart = time
02a0: 2e 74 69 6d 65 28 29 0a 20 20 20 20 20 20 20 20  .time().        
02b0: 72 65 73 75 6c 74 20 3d 20 66 75 6e 63 28 2a 61  result = func(*a
02c0: 72 67 73 2c 20 2a 2a 6b 77 61 72 67 73 29 0a 20  rgs, **kwargs). 
02d0: 20 20 20 20 20 20 20 66 45 6e 64 20 3d 20 74 69         fEnd = ti
02e0: 6d 65 2e 74 69 6d 65 28 29 0a 20 20 20 20 20 20  me.time().      
02f0: 20 20 70 72 69 6e 74 28 66 75 6e 63 2e 5f 5f 6e    print(func.__n
0300: 61 6d 65 5f 5f 2c 20 66 45 6e 64 20 2d 20 66 53  ame__, fEnd - fS
0310: 74 61 72 74 29 0a 20 20 20 20 20 20 20 20 72 65  tart).        re
0320: 74 75 72 6e 20 72 65 73 75 6c 74 0a 20 20 20 20  turn result.    
0330: 72 65 74 75 72 6e 20 77 72 61 70 70 65 72 0a 0a  return wrapper..
0340: 0a 63 6c 61 73 73 20 53 75 67 67 52 65 73 75 6c  .class SuggResul
0350: 74 3a 0a 20 20 20 20 22 22 22 53 74 72 75 63 74  t:.    """Struct
0360: 75 72 65 20 66 6f 72 20 73 74 6f 72 69 6e 67 2c  ure for storing,
0370: 20 63 6c 61 73 73 69 66 79 69 6e 67 20 61 6e 64   classifying and
0380: 20 66 69 6c 74 65 72 69 6e 67 20 73 75 67 67 65   filtering sugge
0390: 73 74 69 6f 6e 73 22 22 22 0a 0a 20 20 20 20 64  stions"""..    d
03a0: 65 66 20 5f 5f 69 6e 69 74 5f 5f 20 28 73 65 6c  ef __init__ (sel
03b0: 66 2c 20 73 57 6f 72 64 2c 20 6e 44 69 73 74 4c  f, sWord, nDistL
03c0: 69 6d 69 74 3d 2d 31 29 3a 0a 20 20 20 20 20 20  imit=-1):.      
03d0: 20 20 73 65 6c 66 2e 73 57 6f 72 64 20 3d 20 73    self.sWord = s
03e0: 57 6f 72 64 0a 20 20 20 20 20 20 20 20 73 65 6c  Word.        sel
03f0: 66 2e 73 53 69 6d 70 6c 69 66 69 65 64 57 6f 72  f.sSimplifiedWor
0400: 64 20 3d 20 63 70 2e 73 69 6d 70 6c 69 66 79 57  d = cp.simplifyW
0410: 6f 72 64 28 73 57 6f 72 64 29 0a 20 20 20 20 20  ord(sWord).     
0420: 20 20 20 73 65 6c 66 2e 6e 44 69 73 74 4c 69 6d     self.nDistLim
0430: 69 74 20 3d 20 6e 44 69 73 74 4c 69 6d 69 74 20  it = nDistLimit 
0440: 20 69 66 20 6e 44 69 73 74 4c 69 6d 69 74 20 3e   if nDistLimit >
0450: 3d 20 30 20 20 65 6c 73 65 20 20 28 6c 65 6e 28  = 0  else  (len(
0460: 73 57 6f 72 64 29 20 2f 2f 20 33 29 20 2b 20 31  sWord) // 3) + 1
0470: 0a 20 20 20 20 20 20 20 20 73 65 6c 66 2e 6e 4d  .        self.nM
0480: 69 6e 44 69 73 74 20 3d 20 31 30 30 30 0a 20 20  inDist = 1000.  
0490: 20 20 20 20 20 20 73 65 6c 66 2e 61 53 75 67 67        self.aSugg
04a0: 20 3d 20 73 65 74 28 29 0a 20 20 20 20 20 20 20   = set().       
04b0: 20 73 65 6c 66 2e 64 53 75 67 67 20 3d 20 7b 20   self.dSugg = { 
04c0: 30 3a 20 5b 5d 2c 20 20 31 3a 20 5b 5d 2c 20 20  0: [],  1: [],  
04d0: 32 3a 20 5b 5d 20 7d 0a 20 20 20 20 20 20 20 20  2: [] }.        
04e0: 73 65 6c 66 2e 61 41 6c 6c 53 75 67 67 20 3d 20  self.aAllSugg = 
04f0: 73 65 74 28 29 20 20 20 20 20 20 20 23 20 61 6c  set()       # al
0500: 6c 20 66 6f 75 6e 64 20 77 6f 72 64 73 20 65 76  l found words ev
0510: 65 6e 20 74 68 6f 73 65 20 72 65 66 75 73 65 64  en those refused
0520: 0a 0a 20 20 20 20 64 65 66 20 61 64 64 53 75 67  ..    def addSug
0530: 67 20 28 73 65 6c 66 2c 20 73 53 75 67 67 2c 20  g (self, sSugg, 
0540: 6e 44 65 65 70 3d 30 29 3a 0a 20 20 20 20 20 20  nDeep=0):.      
0550: 20 20 22 61 64 64 20 61 20 73 75 67 67 65 73 74    "add a suggest
0560: 69 6f 6e 22 0a 20 20 20 20 20 20 20 20 23 6c 6f  ion".        #lo
0570: 67 67 69 6e 67 2e 69 6e 66 6f 28 28 6e 44 65 65  gging.info((nDee
0580: 70 20 2a 20 22 20 20 22 29 20 2b 20 22 5f 5f 22  p * "  ") + "__"
0590: 20 2b 20 73 53 75 67 67 20 2b 20 22 5f 5f 22 29   + sSugg + "__")
05a0: 0a 20 20 20 20 20 20 20 20 69 66 20 73 53 75 67  .        if sSug
05b0: 67 20 69 6e 20 73 65 6c 66 2e 61 41 6c 6c 53 75  g in self.aAllSu
05c0: 67 67 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  gg:.            
05d0: 72 65 74 75 72 6e 0a 20 20 20 20 20 20 20 20 73  return.        s
05e0: 65 6c 66 2e 61 41 6c 6c 53 75 67 67 2e 61 64 64  elf.aAllSugg.add
05f0: 28 73 53 75 67 67 29 0a 20 20 20 20 20 20 20 20  (sSugg).        
0600: 69 66 20 73 53 75 67 67 20 6e 6f 74 20 69 6e 20  if sSugg not in 
0610: 73 65 6c 66 2e 61 53 75 67 67 3a 0a 20 20 20 20  self.aSugg:.    
0620: 20 20 20 20 20 20 20 20 6e 44 69 73 74 20 3d 20          nDist = 
0630: 73 74 2e 64 69 73 74 61 6e 63 65 44 61 6d 65 72  st.distanceDamer
0640: 61 75 4c 65 76 65 6e 73 68 74 65 69 6e 28 73 65  auLevenshtein(se
0650: 6c 66 2e 73 53 69 6d 70 6c 69 66 69 65 64 57 6f  lf.sSimplifiedWo
0660: 72 64 2c 20 63 70 2e 73 69 6d 70 6c 69 66 79 57  rd, cp.simplifyW
0670: 6f 72 64 28 73 53 75 67 67 29 29 0a 20 20 20 20  ord(sSugg)).    
0680: 20 20 20 20 20 20 20 20 69 66 20 6e 44 69 73 74          if nDist
0690: 20 3c 3d 20 73 65 6c 66 2e 6e 44 69 73 74 4c 69   <= self.nDistLi
06a0: 6d 69 74 3a 0a 20 20 20 20 20 20 20 20 20 20 20  mit:.           
06b0: 20 20 20 20 20 69 66 20 6e 44 69 73 74 20 6e 6f       if nDist no
06c0: 74 20 69 6e 20 73 65 6c 66 2e 64 53 75 67 67 3a  t in self.dSugg:
06d0: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
06e0: 20 20 20 20 20 73 65 6c 66 2e 64 53 75 67 67 5b       self.dSugg[
06f0: 6e 44 69 73 74 5d 20 3d 20 5b 5d 0a 20 20 20 20  nDist] = [].    
0700: 20 20 20 20 20 20 20 20 20 20 20 20 73 65 6c 66              self
0710: 2e 64 53 75 67 67 5b 6e 44 69 73 74 5d 2e 61 70  .dSugg[nDist].ap
0720: 70 65 6e 64 28 73 53 75 67 67 29 0a 20 20 20 20  pend(sSugg).    
0730: 20 20 20 20 20 20 20 20 20 20 20 20 73 65 6c 66              self
0740: 2e 61 53 75 67 67 2e 61 64 64 28 73 53 75 67 67  .aSugg.add(sSugg
0750: 29 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ).              
0760: 20 20 69 66 20 6e 44 69 73 74 20 3c 20 73 65 6c    if nDist < sel
0770: 66 2e 6e 4d 69 6e 44 69 73 74 3a 0a 20 20 20 20  f.nMinDist:.    
0780: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0790: 73 65 6c 66 2e 6e 4d 69 6e 44 69 73 74 20 3d 20  self.nMinDist = 
07a0: 6e 44 69 73 74 0a 20 20 20 20 20 20 20 20 20 20  nDist.          
07b0: 20 20 20 20 20 20 73 65 6c 66 2e 6e 44 69 73 74        self.nDist
07c0: 4c 69 6d 69 74 20 3d 20 6d 69 6e 28 73 65 6c 66  Limit = min(self
07d0: 2e 6e 44 69 73 74 4c 69 6d 69 74 2c 20 73 65 6c  .nDistLimit, sel
07e0: 66 2e 6e 4d 69 6e 44 69 73 74 2b 31 29 0a 0a 20  f.nMinDist+1).. 
07f0: 20 20 20 64 65 66 20 67 65 74 53 75 67 67 65 73     def getSugges
0800: 74 69 6f 6e 73 20 28 73 65 6c 66 2c 20 6e 53 75  tions (self, nSu
0810: 67 67 4c 69 6d 69 74 3d 31 30 29 3a 0a 20 20 20  ggLimit=10):.   
0820: 20 20 20 20 20 22 72 65 74 75 72 6e 20 61 20 6c       "return a l
0830: 69 73 74 20 6f 66 20 73 75 67 67 65 73 74 69 6f  ist of suggestio
0840: 6e 73 22 0a 20 20 20 20 20 20 20 20 69 66 20 73  ns".        if s
0850: 65 6c 66 2e 64 53 75 67 67 5b 30 5d 3a 0a 20 20  elf.dSugg[0]:.  
0860: 20 20 20 20 20 20 20 20 20 20 23 20 77 65 20 73            # we s
0870: 6f 72 74 20 74 68 65 20 62 65 74 74 65 72 20 72  ort the better r
0880: 65 73 75 6c 74 73 20 77 69 74 68 20 74 68 65 20  esults with the 
0890: 6f 72 69 67 69 6e 61 6c 20 77 6f 72 64 0a 20 20  original word.  
08a0: 20 20 20 20 20 20 20 20 20 20 73 65 6c 66 2e 64            self.d
08b0: 53 75 67 67 5b 30 5d 2e 73 6f 72 74 28 6b 65 79  Sugg[0].sort(key
08c0: 3d 6c 61 6d 62 64 61 20 73 53 75 67 67 3a 20 73  =lambda sSugg: s
08d0: 74 2e 64 69 73 74 61 6e 63 65 44 61 6d 65 72 61  t.distanceDamera
08e0: 75 4c 65 76 65 6e 73 68 74 65 69 6e 28 73 65 6c  uLevenshtein(sel
08f0: 66 2e 73 57 6f 72 64 2c 20 73 53 75 67 67 29 29  f.sWord, sSugg))
0900: 0a 20 20 20 20 20 20 20 20 6c 52 65 73 20 3d 20  .        lRes = 
0910: 73 65 6c 66 2e 64 53 75 67 67 2e 70 6f 70 28 30  self.dSugg.pop(0
0920: 29 0a 20 20 20 20 20 20 20 20 66 6f 72 20 6e 44  ).        for nD
0930: 69 73 74 2c 20 6c 53 75 67 67 20 69 6e 20 73 65  ist, lSugg in se
0940: 6c 66 2e 64 53 75 67 67 2e 69 74 65 6d 73 28 29  lf.dSugg.items()
0950: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 69 66  :.            if
0960: 20 6e 44 69 73 74 20 3c 3d 20 73 65 6c 66 2e 6e   nDist <= self.n
0970: 44 69 73 74 4c 69 6d 69 74 3a 0a 20 20 20 20 20  DistLimit:.     
0980: 20 20 20 20 20 20 20 20 20 20 20 6c 52 65 73 2e             lRes.
0990: 65 78 74 65 6e 64 28 6c 53 75 67 67 29 0a 20 20  extend(lSugg).  
09a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 69 66                if
09b0: 20 6c 65 6e 28 6c 52 65 73 29 20 3e 20 6e 53 75   len(lRes) > nSu
09c0: 67 67 4c 69 6d 69 74 3a 0a 20 20 20 20 20 20 20  ggLimit:.       
09d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 62 72 65               bre
09e0: 61 6b 0a 20 20 20 20 20 20 20 20 6c 52 65 73 20  ak.        lRes 
09f0: 3d 20 6c 69 73 74 28 63 70 2e 66 69 6c 74 65 72  = list(cp.filter
0a00: 53 75 67 67 28 6c 52 65 73 29 29 0a 20 20 20 20  Sugg(lRes)).    
0a10: 20 20 20 20 69 66 20 73 65 6c 66 2e 73 57 6f 72      if self.sWor
0a20: 64 2e 69 73 75 70 70 65 72 28 29 3a 0a 20 20 20  d.isupper():.   
0a30: 20 20 20 20 20 20 20 20 20 6c 52 65 73 20 3d 20           lRes = 
0a40: 6c 69 73 74 28 6d 61 70 28 6c 61 6d 62 64 61 20  list(map(lambda 
0a50: 73 53 75 67 67 3a 20 73 53 75 67 67 2e 75 70 70  sSugg: sSugg.upp
0a60: 65 72 28 29 2c 20 6c 52 65 73 29 29 0a 20 20 20  er(), lRes)).   
0a70: 20 20 20 20 20 65 6c 69 66 20 73 65 6c 66 2e 73       elif self.s
0a80: 57 6f 72 64 5b 30 3a 31 5d 2e 69 73 75 70 70 65  Word[0:1].isuppe
0a90: 72 28 29 3a 0a 20 20 20 20 20 20 20 20 20 20 20  r():.           
0aa0: 20 6c 52 65 73 20 3d 20 6c 69 73 74 28 6d 61 70   lRes = list(map
0ab0: 28 6c 61 6d 62 64 61 20 73 53 75 67 67 3a 20 73  (lambda sSugg: s
0ac0: 53 75 67 67 5b 30 3a 31 5d 2e 75 70 70 65 72 28  Sugg[0:1].upper(
0ad0: 29 2b 73 53 75 67 67 5b 31 3a 5d 2c 20 6c 52 65  )+sSugg[1:], lRe
0ae0: 73 29 29 20 20 23 20 64 6f 6e 74 e2 80 99 20 75  s))  # dont... u
0af0: 73 65 20 3c 2e 69 73 74 69 74 6c 65 3e 0a 20 20  se <.istitle>.  
0b00: 20 20 20 20 20 20 72 65 74 75 72 6e 20 6c 52 65        return lRe
0b10: 73 5b 3a 6e 53 75 67 67 4c 69 6d 69 74 5d 0a 0a  s[:nSuggLimit]..
0b20: 20 20 20 20 64 65 66 20 72 65 73 65 74 20 28 73      def reset (s
0b30: 65 6c 66 29 3a 0a 20 20 20 20 20 20 20 20 22 63  elf):.        "c
0b40: 6c 65 61 72 20 64 61 74 61 22 0a 20 20 20 20 20  lear data".     
0b50: 20 20 20 73 65 6c 66 2e 61 53 75 67 67 2e 63 6c     self.aSugg.cl
0b60: 65 61 72 28 29 0a 20 20 20 20 20 20 20 20 73 65  ear().        se
0b70: 6c 66 2e 64 53 75 67 67 2e 63 6c 65 61 72 28 29  lf.dSugg.clear()
0b80: 0a 0a 0a 63 6c 61 73 73 20 49 42 44 41 57 47 3a  ...class IBDAWG:
0b90: 0a 20 20 20 20 22 22 22 49 4e 44 45 58 41 42 4c  .    """INDEXABL
0ba0: 45 20 42 49 4e 41 52 59 20 44 49 52 45 43 54 20  E BINARY DIRECT 
0bb0: 41 43 59 43 4c 49 43 20 57 4f 52 44 20 47 52 41  ACYCLIC WORD GRA
0bc0: 50 48 22 22 22 0a 0a 20 20 20 20 64 65 66 20 5f  PH"""..    def _
0bd0: 5f 69 6e 69 74 5f 5f 20 28 73 65 6c 66 2c 20 73  _init__ (self, s
0be0: 6f 75 72 63 65 29 3a 0a 20 20 20 20 20 20 20 20  ource):.        
0bf0: 69 66 20 69 73 69 6e 73 74 61 6e 63 65 28 73 6f  if isinstance(so
0c00: 75 72 63 65 2c 20 73 74 72 29 3a 0a 20 20 20 20  urce, str):.    
0c10: 20 20 20 20 20 20 20 20 73 65 6c 66 2e 62 79 20          self.by 
0c20: 3d 20 70 6b 67 75 74 69 6c 2e 67 65 74 5f 64 61  = pkgutil.get_da
0c30: 74 61 28 5f 5f 70 61 63 6b 61 67 65 5f 5f 2c 20  ta(__package__, 
0c40: 22 5f 64 69 63 74 69 6f 6e 61 72 69 65 73 2f 22  "_dictionaries/"
0c50: 20 2b 20 73 6f 75 72 63 65 29 0a 20 20 20 20 20   + source).     
0c60: 20 20 20 20 20 20 20 69 66 20 6e 6f 74 20 73 65         if not se
0c70: 6c 66 2e 62 79 3a 0a 20 20 20 20 20 20 20 20 20  lf.by:.         
0c80: 20 20 20 20 20 20 20 72 61 69 73 65 20 4f 53 45         raise OSE
0c90: 72 72 6f 72 28 22 23 20 45 72 72 6f 72 2e 20 46  rror("# Error. F
0ca0: 69 6c 65 20 6e 6f 74 20 66 6f 75 6e 64 20 6f 72  ile not found or
0cb0: 20 6e 6f 74 20 6c 6f 61 64 61 62 6c 65 3a 20 22   not loadable: "
0cc0: 2b 73 6f 75 72 63 65 29 0a 0a 20 20 20 20 20 20  +source)..      
0cd0: 20 20 20 20 20 20 69 66 20 73 6f 75 72 63 65 2e        if source.
0ce0: 65 6e 64 73 77 69 74 68 28 22 2e 62 64 69 63 22  endswith(".bdic"
0cf0: 29 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  ):.             
0d00: 20 20 20 73 65 6c 66 2e 5f 69 6e 69 74 42 69 6e     self._initBin
0d10: 61 72 79 28 29 0a 20 20 20 20 20 20 20 20 20 20  ary().          
0d20: 20 20 65 6c 69 66 20 73 6f 75 72 63 65 2e 65 6e    elif source.en
0d30: 64 73 77 69 74 68 28 22 2e 6a 73 6f 6e 22 29 3a  dswith(".json"):
0d40: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
0d50: 20 73 65 6c 66 2e 5f 69 6e 69 74 4a 53 4f 4e 28   self._initJSON(
0d60: 6a 73 6f 6e 2e 6c 6f 61 64 73 28 73 65 6c 66 2e  json.loads(self.
0d70: 62 79 2e 64 65 63 6f 64 65 28 22 75 74 66 2d 38  by.decode("utf-8
0d80: 22 29 29 29 20 20 20 20 20 23 6a 73 6f 6e 2e 6c  ")))     #json.l
0d90: 6f 61 64 73 28 73 65 6c 66 2e 62 79 29 20 20 20  oads(self.by)   
0da0: 20 23 20 49 6e 20 50 79 74 68 6f 6e 20 33 2e 36   # In Python 3.6
0db0: 2c 20 63 61 6e 20 72 65 61 64 20 64 69 72 65 63  , can read direc
0dc0: 74 6c 79 20 62 69 6e 61 72 79 20 73 74 72 69 6e  tly binary strin
0dd0: 67 73 0a 20 20 20 20 20 20 20 20 20 20 20 20 65  gs.            e
0de0: 6c 73 65 3a 0a 20 20 20 20 20 20 20 20 20 20 20  lse:.           
0df0: 20 20 20 20 20 72 61 69 73 65 20 4f 53 45 72 72       raise OSErr
0e00: 6f 72 28 22 23 20 45 72 72 6f 72 2e 20 55 6e 6b  or("# Error. Unk
0e10: 6e 6f 77 6e 20 66 69 6c 65 20 74 79 70 65 3a 20  nown file type: 
0e20: 22 2b 73 6f 75 72 63 65 29 0a 20 20 20 20 20 20  "+source).      
0e30: 20 20 65 6c 73 65 3a 0a 20 20 20 20 20 20 20 20    else:.        
0e40: 20 20 20 20 73 65 6c 66 2e 5f 69 6e 69 74 4a 53      self._initJS
0e50: 4f 4e 28 73 6f 75 72 63 65 29 0a 0a 20 20 20 20  ON(source)..    
0e60: 20 20 20 20 73 65 6c 66 2e 73 46 69 6c 65 4e 61      self.sFileNa
0e70: 6d 65 20 3d 20 73 6f 75 72 63 65 20 20 69 66 20  me = source  if 
0e80: 69 73 69 6e 73 74 61 6e 63 65 28 73 6f 75 72 63  isinstance(sourc
0e90: 65 2c 20 73 74 72 29 20 20 65 6c 73 65 20 22 5b  e, str)  else "[
0ea0: 4e 6f 6e 65 5d 22 0a 0a 20 20 20 20 20 20 20 20  None]"..        
0eb0: 73 65 6c 66 2e 5f 61 72 63 4d 61 73 6b 20 3d 20  self._arcMask = 
0ec0: 28 32 20 2a 2a 20 28 28 73 65 6c 66 2e 6e 42 79  (2 ** ((self.nBy
0ed0: 74 65 73 41 72 63 20 2a 20 38 29 20 2d 20 33 29  tesArc * 8) - 3)
0ee0: 29 20 2d 20 31 0a 20 20 20 20 20 20 20 20 73 65  ) - 1.        se
0ef0: 6c 66 2e 5f 66 69 6e 61 6c 4e 6f 64 65 4d 61 73  lf._finalNodeMas
0f00: 6b 20 3d 20 31 20 3c 3c 20 28 28 73 65 6c 66 2e  k = 1 << ((self.
0f10: 6e 42 79 74 65 73 41 72 63 20 2a 20 38 29 20 2d  nBytesArc * 8) -
0f20: 20 31 29 0a 20 20 20 20 20 20 20 20 73 65 6c 66   1).        self
0f30: 2e 5f 6c 61 73 74 41 72 63 4d 61 73 6b 20 3d 20  ._lastArcMask = 
0f40: 31 20 3c 3c 20 28 28 73 65 6c 66 2e 6e 42 79 74  1 << ((self.nByt
0f50: 65 73 41 72 63 20 2a 20 38 29 20 2d 20 32 29 0a  esArc * 8) - 2).
0f60: 20 20 20 20 20 20 20 20 73 65 6c 66 2e 5f 61 64          self._ad
0f70: 64 72 42 69 74 4d 61 73 6b 20 3d 20 31 20 3c 3c  drBitMask = 1 <<
0f80: 20 28 28 73 65 6c 66 2e 6e 42 79 74 65 73 41 72   ((self.nBytesAr
0f90: 63 20 2a 20 38 29 20 2d 20 33 29 20 20 23 20 76  c * 8) - 3)  # v
0fa0: 65 72 73 69 6f 6e 20 32 0a 0a 20 20 20 20 20 20  ersion 2..      
0fb0: 20 20 23 20 66 75 6e 63 74 69 6f 6e 20 74 6f 20    # function to 
0fc0: 64 65 63 6f 64 65 20 74 68 65 20 61 66 66 69 78  decode the affix
0fd0: 2f 73 75 66 66 69 78 20 63 6f 64 65 0a 20 20 20  /suffix code.   
0fe0: 20 20 20 20 20 69 66 20 73 65 6c 66 2e 63 53 74       if self.cSt
0ff0: 65 6d 6d 69 6e 67 20 3d 3d 20 22 53 22 3a 0a 20  emming == "S":. 
1000: 20 20 20 20 20 20 20 20 20 20 20 73 65 6c 66 2e             self.
1010: 66 75 6e 63 53 74 65 6d 6d 69 6e 67 20 3d 20 73  funcStemming = s
1020: 74 2e 63 68 61 6e 67 65 57 6f 72 64 57 69 74 68  t.changeWordWith
1030: 53 75 66 66 69 78 43 6f 64 65 0a 20 20 20 20 20  SuffixCode.     
1040: 20 20 20 65 6c 69 66 20 73 65 6c 66 2e 63 53 74     elif self.cSt
1050: 65 6d 6d 69 6e 67 20 3d 3d 20 22 41 22 3a 0a 20  emming == "A":. 
1060: 20 20 20 20 20 20 20 20 20 20 20 73 65 6c 66 2e             self.
1070: 66 75 6e 63 53 74 65 6d 6d 69 6e 67 20 3d 20 73  funcStemming = s
1080: 74 2e 63 68 61 6e 67 65 57 6f 72 64 57 69 74 68  t.changeWordWith
1090: 41 66 66 69 78 43 6f 64 65 0a 20 20 20 20 20 20  AffixCode.      
10a0: 20 20 65 6c 73 65 3a 0a 20 20 20 20 20 20 20 20    else:.        
10b0: 20 20 20 20 73 65 6c 66 2e 66 75 6e 63 53 74 65      self.funcSte
10c0: 6d 6d 69 6e 67 20 3d 20 73 74 2e 6e 6f 53 74 65  mming = st.noSte
10d0: 6d 6d 69 6e 67 0a 0a 20 20 20 20 20 20 20 20 23  mming..        #
10e0: 20 43 6f 6e 66 69 67 75 72 69 6e 67 20 44 41 57   Configuring DAW
10f0: 47 20 66 75 6e 63 74 69 6f 6e 73 20 61 63 63 6f  G functions acco
1100: 72 64 69 6e 67 20 74 6f 20 6e 43 6f 6d 70 72 65  rding to nCompre
1110: 73 73 69 6f 6e 4d 65 74 68 6f 64 0a 20 20 20 20  ssionMethod.    
1120: 20 20 20 20 69 66 20 73 65 6c 66 2e 6e 43 6f 6d      if self.nCom
1130: 70 72 65 73 73 69 6f 6e 4d 65 74 68 6f 64 20 3d  pressionMethod =
1140: 3d 20 31 3a 0a 20 20 20 20 20 20 20 20 20 20 20  = 1:.           
1150: 20 73 65 6c 66 2e 6d 6f 72 70 68 20 3d 20 73 65   self.morph = se
1160: 6c 66 2e 5f 6d 6f 72 70 68 31 0a 20 20 20 20 20  lf._morph1.     
1170: 20 20 20 20 20 20 20 73 65 6c 66 2e 73 74 65 6d         self.stem
1180: 20 3d 20 73 65 6c 66 2e 5f 73 74 65 6d 31 0a 20   = self._stem1. 
1190: 20 20 20 20 20 20 20 20 20 20 20 73 65 6c 66 2e             self.
11a0: 5f 6c 6f 6f 6b 75 70 41 72 63 4e 6f 64 65 20 3d  _lookupArcNode =
11b0: 20 73 65 6c 66 2e 5f 6c 6f 6f 6b 75 70 41 72 63   self._lookupArc
11c0: 4e 6f 64 65 31 0a 20 20 20 20 20 20 20 20 20 20  Node1.          
11d0: 20 20 73 65 6c 66 2e 5f 67 65 74 41 72 63 73 20    self._getArcs 
11e0: 3d 20 73 65 6c 66 2e 5f 67 65 74 41 72 63 73 31  = self._getArcs1
11f0: 0a 20 20 20 20 20 20 20 20 20 20 20 20 73 65 6c  .            sel
1200: 66 2e 5f 77 72 69 74 65 4e 6f 64 65 73 20 3d 20  f._writeNodes = 
1210: 73 65 6c 66 2e 5f 77 72 69 74 65 4e 6f 64 65 73  self._writeNodes
1220: 31 0a 20 20 20 20 20 20 20 20 65 6c 69 66 20 73  1.        elif s
1230: 65 6c 66 2e 6e 43 6f 6d 70 72 65 73 73 69 6f 6e  elf.nCompression
1240: 4d 65 74 68 6f 64 20 3d 3d 20 32 3a 0a 20 20 20  Method == 2:.   
1250: 20 20 20 20 20 20 20 20 20 73 65 6c 66 2e 6d 6f           self.mo
1260: 72 70 68 20 3d 20 73 65 6c 66 2e 5f 6d 6f 72 70  rph = self._morp
1270: 68 32 0a 20 20 20 20 20 20 20 20 20 20 20 20 73  h2.            s
1280: 65 6c 66 2e 73 74 65 6d 20 3d 20 73 65 6c 66 2e  elf.stem = self.
1290: 5f 73 74 65 6d 32 0a 20 20 20 20 20 20 20 20 20  _stem2.         
12a0: 20 20 20 73 65 6c 66 2e 5f 6c 6f 6f 6b 75 70 41     self._lookupA
12b0: 72 63 4e 6f 64 65 20 3d 20 73 65 6c 66 2e 5f 6c  rcNode = self._l
12c0: 6f 6f 6b 75 70 41 72 63 4e 6f 64 65 32 0a 20 20  ookupArcNode2.  
12d0: 20 20 20 20 20 20 20 20 20 20 73 65 6c 66 2e 5f            self._
12e0: 67 65 74 41 72 63 73 20 3d 20 73 65 6c 66 2e 5f  getArcs = self._
12f0: 67 65 74 41 72 63 73 32 0a 20 20 20 20 20 20 20  getArcs2.       
1300: 20 20 20 20 20 73 65 6c 66 2e 5f 77 72 69 74 65       self._write
1310: 4e 6f 64 65 73 20 3d 20 73 65 6c 66 2e 5f 77 72  Nodes = self._wr
1320: 69 74 65 4e 6f 64 65 73 32 0a 20 20 20 20 20 20  iteNodes2.      
1330: 20 20 65 6c 69 66 20 73 65 6c 66 2e 6e 43 6f 6d    elif self.nCom
1340: 70 72 65 73 73 69 6f 6e 4d 65 74 68 6f 64 20 3d  pressionMethod =
1350: 3d 20 33 3a 0a 20 20 20 20 20 20 20 20 20 20 20  = 3:.           
1360: 20 73 65 6c 66 2e 6d 6f 72 70 68 20 3d 20 73 65   self.morph = se
1370: 6c 66 2e 5f 6d 6f 72 70 68 33 0a 20 20 20 20 20  lf._morph3.     
1380: 20 20 20 20 20 20 20 73 65 6c 66 2e 73 74 65 6d         self.stem
1390: 20 3d 20 73 65 6c 66 2e 5f 73 74 65 6d 33 0a 20   = self._stem3. 
13a0: 20 20 20 20 20 20 20 20 20 20 20 73 65 6c 66 2e             self.
13b0: 5f 6c 6f 6f 6b 75 70 41 72 63 4e 6f 64 65 20 3d  _lookupArcNode =
13c0: 20 73 65 6c 66 2e 5f 6c 6f 6f 6b 75 70 41 72 63   self._lookupArc
13d0: 4e 6f 64 65 33 0a 20 20 20 20 20 20 20 20 20 20  Node3.          
13e0: 20 20 73 65 6c 66 2e 5f 67 65 74 41 72 63 73 20    self._getArcs 
13f0: 3d 20 73 65 6c 66 2e 5f 67 65 74 41 72 63 73 33  = self._getArcs3
1400: 0a 20 20 20 20 20 20 20 20 20 20 20 20 73 65 6c  .            sel
1410: 66 2e 5f 77 72 69 74 65 4e 6f 64 65 73 20 3d 20  f._writeNodes = 
1420: 73 65 6c 66 2e 5f 77 72 69 74 65 4e 6f 64 65 73  self._writeNodes
1430: 33 0a 20 20 20 20 20 20 20 20 65 6c 73 65 3a 0a  3.        else:.
1440: 20 20 20 20 20 20 20 20 20 20 20 20 72 61 69 73              rais
1450: 65 20 56 61 6c 75 65 45 72 72 6f 72 28 22 20 20  e ValueError("  
1460: 23 20 45 72 72 6f 72 3a 20 75 6e 6b 6e 6f 77 6e  # Error: unknown
1470: 20 63 6f 64 65 3a 20 7b 7d 22 2e 66 6f 72 6d 61   code: {}".forma
1480: 74 28 73 65 6c 66 2e 6e 43 6f 6d 70 72 65 73 73  t(self.nCompress
1490: 69 6f 6e 4d 65 74 68 6f 64 29 29 0a 0a 20 20 20  ionMethod))..   
14a0: 20 20 20 20 20 73 65 6c 66 2e 62 41 63 72 6f 6e       self.bAcron
14b0: 79 6d 56 61 6c 69 64 20 3d 20 46 61 6c 73 65 0a  ymValid = False.
14c0: 20 20 20 20 20 20 20 20 73 65 6c 66 2e 62 4e 75          self.bNu
14d0: 6d 41 74 4c 61 73 74 56 61 6c 69 64 20 3d 20 46  mAtLastValid = F
14e0: 61 6c 73 65 0a 0a 20 20 20 20 64 65 66 20 5f 69  alse..    def _i
14f0: 6e 69 74 42 69 6e 61 72 79 20 28 73 65 6c 66 29  nitBinary (self)
1500: 3a 0a 20 20 20 20 20 20 20 20 22 69 6e 69 74 69  :.        "initi
1510: 61 6c 69 7a 65 20 77 69 74 68 20 62 69 6e 61 72  alize with binar
1520: 79 20 73 74 72 75 63 74 75 72 65 20 66 69 6c 65  y structure file
1530: 22 0a 20 20 20 20 20 20 20 20 69 66 20 73 65 6c  ".        if sel
1540: 66 2e 62 79 5b 30 3a 31 37 5d 20 21 3d 20 62 22  f.by[0:17] != b"
1550: 2f 67 72 61 6d 6d 61 6c 65 63 74 65 2d 66 73 61  /grammalecte-fsa
1560: 2f 22 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  /":.            
1570: 72 61 69 73 65 20 54 79 70 65 45 72 72 6f 72 28  raise TypeError(
1580: 22 23 20 45 72 72 6f 72 2e 20 4e 6f 74 20 61 20  "# Error. Not a 
1590: 67 72 61 6d 6d 61 6c 65 63 74 65 2d 66 73 61 20  grammalecte-fsa 
15a0: 62 69 6e 61 72 79 20 64 69 63 74 69 6f 6e 61 72  binary dictionar
15b0: 79 2e 20 48 65 61 64 65 72 3a 20 7b 7d 22 2e 66  y. Header: {}".f
15c0: 6f 72 6d 61 74 28 73 65 6c 66 2e 62 79 5b 30 3a  ormat(self.by[0:
15d0: 39 5d 29 29 0a 20 20 20 20 20 20 20 20 69 66 20  9])).        if 
15e0: 6e 6f 74 28 73 65 6c 66 2e 62 79 5b 31 37 3a 31  not(self.by[17:1
15f0: 38 5d 20 3d 3d 20 62 22 31 22 20 6f 72 20 73 65  8] == b"1" or se
1600: 6c 66 2e 62 79 5b 31 37 3a 31 38 5d 20 3d 3d 20  lf.by[17:18] == 
1610: 62 22 32 22 20 6f 72 20 73 65 6c 66 2e 62 79 5b  b"2" or self.by[
1620: 31 37 3a 31 38 5d 20 3d 3d 20 62 22 33 22 29 3a  17:18] == b"3"):
1630: 0a 20 20 20 20 20 20 20 20 20 20 20 20 72 61 69  .            rai
1640: 73 65 20 56 61 6c 75 65 45 72 72 6f 72 28 22 23  se ValueError("#
1650: 20 45 72 72 6f 72 2e 20 55 6e 6b 6e 6f 77 6e 20   Error. Unknown 
1660: 64 69 63 74 69 6f 6e 61 72 79 20 76 65 72 73 69  dictionary versi
1670: 6f 6e 3a 20 7b 7d 22 2e 66 6f 72 6d 61 74 28 73  on: {}".format(s
1680: 65 6c 66 2e 62 79 5b 31 37 3a 31 38 5d 29 29 0a  elf.by[17:18])).
1690: 20 20 20 20 20 20 20 20 74 72 79 3a 0a 20 20 20          try:.   
16a0: 20 20 20 20 20 20 20 20 20 62 79 48 65 61 64 65           byHeade
16b0: 72 2c 20 62 79 49 6e 66 6f 2c 20 62 79 56 61 6c  r, byInfo, byVal
16c0: 75 65 73 2c 20 62 79 32 67 72 61 6d 73 2c 20 62  ues, by2grams, b
16d0: 79 44 69 63 20 3d 20 73 65 6c 66 2e 62 79 2e 73  yDic = self.by.s
16e0: 70 6c 69 74 28 62 22 5c 30 5c 30 5c 30 5c 30 22  plit(b"\0\0\0\0"
16f0: 2c 20 34 29 0a 20 20 20 20 20 20 20 20 65 78 63  , 4).        exc
1700: 65 70 74 20 45 78 63 65 70 74 69 6f 6e 3a 0a 20  ept Exception:. 
1710: 20 20 20 20 20 20 20 20 20 20 20 72 61 69 73 65             raise
1720: 20 45 78 63 65 70 74 69 6f 6e 0a 0a 20 20 20 20   Exception..    
1730: 20 20 20 20 73 65 6c 66 2e 6e 43 6f 6d 70 72 65      self.nCompre
1740: 73 73 69 6f 6e 4d 65 74 68 6f 64 20 3d 20 69 6e  ssionMethod = in
1750: 74 28 73 65 6c 66 2e 62 79 5b 31 37 3a 31 38 5d  t(self.by[17:18]
1760: 2e 64 65 63 6f 64 65 28 22 75 74 66 2d 38 22 29  .decode("utf-8")
1770: 29 0a 20 20 20 20 20 20 20 20 73 65 6c 66 2e 73  ).        self.s
1780: 48 65 61 64 65 72 20 3d 20 62 79 48 65 61 64 65  Header = byHeade
1790: 72 2e 64 65 63 6f 64 65 28 22 75 74 66 2d 38 22  r.decode("utf-8"
17a0: 29 0a 20 20 20 20 20 20 20 20 73 65 6c 66 2e 6c  ).        self.l
17b0: 41 72 63 56 61 6c 20 3d 20 62 79 56 61 6c 75 65  ArcVal = byValue
17c0: 73 2e 64 65 63 6f 64 65 28 22 75 74 66 2d 38 22  s.decode("utf-8"
17d0: 29 2e 73 70 6c 69 74 28 22 5c 74 22 29 0a 20 20  ).split("\t").  
17e0: 20 20 20 20 20 20 73 65 6c 66 2e 6e 41 72 63 56        self.nArcV
17f0: 61 6c 20 3d 20 6c 65 6e 28 73 65 6c 66 2e 6c 41  al = len(self.lA
1800: 72 63 56 61 6c 29 0a 20 20 20 20 20 20 20 20 73  rcVal).        s
1810: 65 6c 66 2e 62 79 44 69 63 20 3d 20 62 79 44 69  elf.byDic = byDi
1820: 63 0a 20 20 20 20 20 20 20 20 73 65 6c 66 2e 61  c.        self.a
1830: 32 67 72 61 6d 73 20 3d 20 73 65 74 28 62 79 32  2grams = set(by2
1840: 67 72 61 6d 73 2e 64 65 63 6f 64 65 28 22 75 74  grams.decode("ut
1850: 66 2d 38 22 29 2e 73 70 6c 69 74 28 22 5c 74 22  f-8").split("\t"
1860: 29 29 0a 0a 20 20 20 20 20 20 20 20 6c 20 3d 20  ))..        l = 
1870: 62 79 49 6e 66 6f 2e 64 65 63 6f 64 65 28 22 75  byInfo.decode("u
1880: 74 66 2d 38 22 29 2e 73 70 6c 69 74 28 22 2f 2f  tf-8").split("//
1890: 22 29 0a 20 20 20 20 20 20 20 20 73 65 6c 66 2e  ").        self.
18a0: 73 4c 61 6e 67 43 6f 64 65 20 3d 20 6c 2e 70 6f  sLangCode = l.po
18b0: 70 28 30 29 0a 20 20 20 20 20 20 20 20 73 65 6c  p(0).        sel
18c0: 66 2e 73 4c 61 6e 67 4e 61 6d 65 20 3d 20 6c 2e  f.sLangName = l.
18d0: 70 6f 70 28 30 29 0a 20 20 20 20 20 20 20 20 73  pop(0).        s
18e0: 65 6c 66 2e 73 44 69 63 4e 61 6d 65 20 3d 20 6c  elf.sDicName = l
18f0: 2e 70 6f 70 28 30 29 0a 20 20 20 20 20 20 20 20  .pop(0).        
1900: 73 65 6c 66 2e 73 44 65 73 63 72 69 70 74 69 6f  self.sDescriptio
1910: 6e 20 3d 20 6c 2e 70 6f 70 28 30 29 0a 20 20 20  n = l.pop(0).   
1920: 20 20 20 20 20 73 65 6c 66 2e 73 44 61 74 65 20       self.sDate 
1930: 3d 20 6c 2e 70 6f 70 28 30 29 0a 20 20 20 20 20  = l.pop(0).     
1940: 20 20 20 73 65 6c 66 2e 6e 43 68 61 72 20 3d 20     self.nChar = 
1950: 69 6e 74 28 6c 2e 70 6f 70 28 30 29 29 0a 20 20  int(l.pop(0)).  
1960: 20 20 20 20 20 20 73 65 6c 66 2e 6e 42 79 74 65        self.nByte
1970: 73 41 72 63 20 3d 20 69 6e 74 28 6c 2e 70 6f 70  sArc = int(l.pop
1980: 28 30 29 29 0a 20 20 20 20 20 20 20 20 73 65 6c  (0)).        sel
1990: 66 2e 6e 42 79 74 65 73 4e 6f 64 65 41 64 64 72  f.nBytesNodeAddr
19a0: 65 73 73 20 3d 20 69 6e 74 28 6c 2e 70 6f 70 28  ess = int(l.pop(
19b0: 30 29 29 0a 20 20 20 20 20 20 20 20 73 65 6c 66  0)).        self
19c0: 2e 6e 45 6e 74 72 79 20 3d 20 69 6e 74 28 6c 2e  .nEntry = int(l.
19d0: 70 6f 70 28 30 29 29 0a 20 20 20 20 20 20 20 20  pop(0)).        
19e0: 73 65 6c 66 2e 6e 4e 6f 64 65 20 3d 20 69 6e 74  self.nNode = int
19f0: 28 6c 2e 70 6f 70 28 30 29 29 0a 20 20 20 20 20  (l.pop(0)).     
1a00: 20 20 20 73 65 6c 66 2e 6e 41 72 63 20 3d 20 69     self.nArc = i
1a10: 6e 74 28 6c 2e 70 6f 70 28 30 29 29 0a 20 20 20  nt(l.pop(0)).   
1a20: 20 20 20 20 20 73 65 6c 66 2e 6e 41 66 66 20 3d       self.nAff =
1a30: 20 69 6e 74 28 6c 2e 70 6f 70 28 30 29 29 0a 20   int(l.pop(0)). 
1a40: 20 20 20 20 20 20 20 73 65 6c 66 2e 63 53 74 65         self.cSte
1a50: 6d 6d 69 6e 67 20 3d 20 6c 2e 70 6f 70 28 30 29  mming = l.pop(0)
1a60: 0a 20 20 20 20 20 20 20 20 73 65 6c 66 2e 6e 54  .        self.nT
1a70: 61 67 20 3d 20 73 65 6c 66 2e 6e 41 72 63 56 61  ag = self.nArcVa
1a80: 6c 20 2d 20 73 65 6c 66 2e 6e 43 68 61 72 20 2d  l - self.nChar -
1a90: 20 73 65 6c 66 2e 6e 41 66 66 0a 20 20 20 20 20   self.nAff.     
1aa0: 20 20 20 23 20 3c 64 43 68 61 72 3e 20 74 6f 20     # <dChar> to 
1ab0: 67 65 74 20 74 68 65 20 76 61 6c 75 65 20 6f 66  get the value of
1ac0: 20 61 6e 20 61 72 63 2c 20 3c 64 43 68 61 72 56   an arc, <dCharV
1ad0: 61 6c 3e 20 74 6f 20 67 65 74 20 74 68 65 20 63  al> to get the c
1ae0: 68 61 72 20 6f 66 20 61 6e 20 61 72 63 20 77 69  har of an arc wi
1af0: 74 68 20 69 74 73 20 76 61 6c 75 65 0a 20 20 20  th its value.   
1b00: 20 20 20 20 20 73 65 6c 66 2e 64 43 68 61 72 20       self.dChar 
1b10: 3d 20 7b 7d 0a 20 20 20 20 20 20 20 20 66 6f 72  = {}.        for
1b20: 20 69 20 69 6e 20 72 61 6e 67 65 28 31 2c 20 73   i in range(1, s
1b30: 65 6c 66 2e 6e 43 68 61 72 2b 31 29 3a 0a 20 20  elf.nChar+1):.  
1b40: 20 20 20 20 20 20 20 20 20 20 73 65 6c 66 2e 64            self.d
1b50: 43 68 61 72 5b 73 65 6c 66 2e 6c 41 72 63 56 61  Char[self.lArcVa
1b60: 6c 5b 69 5d 5d 20 3d 20 69 0a 20 20 20 20 20 20  l[i]] = i.      
1b70: 20 20 73 65 6c 66 2e 64 43 68 61 72 56 61 6c 20    self.dCharVal 
1b80: 3d 20 7b 20 76 3a 20 6b 20 20 66 6f 72 20 6b 2c  = { v: k  for k,
1b90: 20 76 20 69 6e 20 73 65 6c 66 2e 64 43 68 61 72   v in self.dChar
1ba0: 2e 69 74 65 6d 73 28 29 20 7d 0a 20 20 20 20 20  .items() }.     
1bb0: 20 20 20 73 65 6c 66 2e 6e 42 79 74 65 73 4f 66     self.nBytesOf
1bc0: 66 73 65 74 20 3d 20 31 20 23 20 76 65 72 73 69  fset = 1 # versi
1bd0: 6f 6e 20 33 0a 0a 20 20 20 20 64 65 66 20 5f 69  on 3..    def _i
1be0: 6e 69 74 4a 53 4f 4e 20 28 73 65 6c 66 2c 20 6f  nitJSON (self, o
1bf0: 4a 53 4f 4e 29 3a 0a 20 20 20 20 20 20 20 20 22  JSON):.        "
1c00: 69 6e 69 74 69 61 6c 69 7a 65 20 77 69 74 68 20  initialize with 
1c10: 61 20 4a 53 4f 4e 20 74 65 78 74 20 66 69 6c 65  a JSON text file
1c20: 22 0a 20 20 20 20 20 20 20 20 73 65 6c 66 2e 5f  ".        self._
1c30: 5f 64 69 63 74 5f 5f 2e 75 70 64 61 74 65 28 6f  _dict__.update(o
1c40: 4a 53 4f 4e 29 0a 20 20 20 20 20 20 20 20 73 65  JSON).        se
1c50: 6c 66 2e 62 79 44 69 63 20 3d 20 62 69 6e 61 73  lf.byDic = binas
1c60: 63 69 69 2e 75 6e 68 65 78 6c 69 66 79 28 73 65  cii.unhexlify(se
1c70: 6c 66 2e 73 42 79 44 69 63 29 0a 20 20 20 20 20  lf.sByDic).     
1c80: 20 20 20 73 65 6c 66 2e 64 43 68 61 72 56 61 6c     self.dCharVal
1c90: 20 3d 20 7b 20 76 3a 20 6b 20 20 66 6f 72 20 6b   = { v: k  for k
1ca0: 2c 20 76 20 69 6e 20 73 65 6c 66 2e 64 43 68 61  , v in self.dCha
1cb0: 72 2e 69 74 65 6d 73 28 29 20 7d 0a 20 20 20 20  r.items() }.    
1cc0: 20 20 20 20 73 65 6c 66 2e 61 32 67 72 61 6d 73      self.a2grams
1cd0: 20 3d 20 73 65 74 28 73 65 6c 66 2e 6c 32 67 72   = set(self.l2gr
1ce0: 61 6d 73 29 20 20 69 66 20 68 61 73 61 74 74 72  ams)  if hasattr
1cf0: 28 73 65 6c 66 2c 20 27 6c 32 67 72 61 6d 73 27  (self, 'l2grams'
1d00: 29 20 20 65 6c 73 65 20 4e 6f 6e 65 0a 0a 20 20  )  else None..  
1d10: 20 20 64 65 66 20 67 65 74 49 6e 66 6f 20 28 73    def getInfo (s
1d20: 65 6c 66 29 3a 0a 20 20 20 20 20 20 20 20 22 72  elf):.        "r
1d30: 65 74 75 72 6e 20 73 74 72 69 6e 67 20 61 62 6f  eturn string abo
1d40: 75 74 20 74 68 65 20 49 42 44 41 57 47 22 0a 20  ut the IBDAWG". 
1d50: 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 20 22         return  "
1d60: 20 20 4c 61 6e 67 75 61 67 65 3a 20 7b 30 2e 73    Language: {0.s
1d70: 4c 61 6e 67 4e 61 6d 65 7d 20 20 20 4c 61 6e 67  LangName}   Lang
1d80: 20 63 6f 64 65 3a 20 7b 30 2e 73 4c 61 6e 67 43   code: {0.sLangC
1d90: 6f 64 65 7d 20 20 20 44 69 63 74 69 6f 6e 61 72  ode}   Dictionar
1da0: 79 20 6e 61 6d 65 3a 20 7b 30 2e 73 44 69 63 4e  y name: {0.sDicN
1db0: 61 6d 65 7d 22 20 5c 0a 20 20 20 20 20 20 20 20  ame}" \.        
1dc0: 20 20 20 20 20 20 20 20 22 20 20 43 6f 6d 70 72          "  Compr
1dd0: 65 73 73 69 6f 6e 20 6d 65 74 68 6f 64 3a 20 7b  ession method: {
1de0: 30 2e 6e 43 6f 6d 70 72 65 73 73 69 6f 6e 4d 65  0.nCompressionMe
1df0: 74 68 6f 64 3a 3e 32 7d 20 20 20 44 61 74 65 3a  thod:>2}   Date:
1e00: 20 7b 30 2e 73 44 61 74 65 7d 20 20 20 53 74 65   {0.sDate}   Ste
1e10: 6d 6d 69 6e 67 3a 20 7b 30 2e 63 53 74 65 6d 6d  mming: {0.cStemm
1e20: 69 6e 67 7d 46 58 5c 6e 22 20 5c 0a 20 20 20 20  ing}FX\n" \.    
1e30: 20 20 20 20 20 20 20 20 20 20 20 20 22 20 20 41              "  A
1e40: 72 63 73 20 76 61 6c 75 65 73 3a 20 20 7b 30 2e  rcs values:  {0.
1e50: 6e 41 72 63 56 61 6c 3a 3e 31 30 2c 7d 20 3d 20  nArcVal:>10,} = 
1e60: 7b 30 2e 6e 43 68 61 72 3a 3e 35 2c 7d 20 63 68  {0.nChar:>5,} ch
1e70: 61 72 61 63 74 65 72 73 2c 20 20 7b 30 2e 6e 41  aracters,  {0.nA
1e80: 66 66 3a 3e 36 2c 7d 20 61 66 66 69 78 65 73 2c  ff:>6,} affixes,
1e90: 20 20 7b 30 2e 6e 54 61 67 3a 3e 36 2c 7d 20 74    {0.nTag:>6,} t
1ea0: 61 67 73 5c 6e 22 20 5c 0a 20 20 20 20 20 20 20  ags\n" \.       
1eb0: 20 20 20 20 20 20 20 20 20 22 20 20 44 69 63 74           "  Dict
1ec0: 69 6f 6e 61 72 79 3a 20 7b 30 2e 6e 45 6e 74 72  ionary: {0.nEntr
1ed0: 79 3a 3e 31 32 2c 7d 20 65 6e 74 72 69 65 73 2c  y:>12,} entries,
1ee0: 20 20 20 20 7b 30 2e 6e 4e 6f 64 65 3a 3e 31 31      {0.nNode:>11
1ef0: 2c 7d 20 6e 6f 64 65 73 2c 20 20 20 7b 30 2e 6e  ,} nodes,   {0.n
1f00: 41 72 63 3a 3e 31 31 2c 7d 20 61 72 63 73 5c 6e  Arc:>11,} arcs\n
1f10: 22 20 5c 0a 20 20 20 20 20 20 20 20 20 20 20 20  " \.            
1f20: 20 20 20 20 22 20 20 41 64 64 72 65 73 73 20 73      "  Address s
1f30: 69 7a 65 3a 20 7b 30 2e 6e 42 79 74 65 73 4e 6f  ize: {0.nBytesNo
1f40: 64 65 41 64 64 72 65 73 73 3a 3e 31 7d 20 62 79  deAddress:>1} by
1f50: 74 65 73 2c 20 20 41 72 63 20 73 69 7a 65 3a 20  tes,  Arc size: 
1f60: 7b 30 2e 6e 42 79 74 65 73 41 72 63 3a 3e 31 7d  {0.nBytesArc:>1}
1f70: 20 62 79 74 65 73 5c 6e 22 2e 66 6f 72 6d 61 74   bytes\n".format
1f80: 28 73 65 6c 66 29 0a 0a 20 20 20 20 64 65 66 20  (self)..    def 
1f90: 77 72 69 74 65 41 73 4a 53 4f 62 6a 65 63 74 20  writeAsJSObject 
1fa0: 28 73 65 6c 66 2c 20 73 70 66 44 65 73 74 2c 20  (self, spfDest, 
1fb0: 62 49 6e 4a 53 4d 6f 64 75 6c 65 3d 46 61 6c 73  bInJSModule=Fals
1fc0: 65 2c 20 62 42 69 6e 61 72 79 44 69 63 74 41 73  e, bBinaryDictAs
1fd0: 48 65 78 53 74 72 69 6e 67 3d 46 61 6c 73 65 29  HexString=False)
1fe0: 3a 0a 20 20 20 20 20 20 20 20 22 77 72 69 74 65  :.        "write
1ff0: 20 49 42 44 41 57 47 20 61 73 20 61 20 4a 61 76   IBDAWG as a Jav
2000: 61 53 63 72 69 70 74 20 6f 62 6a 65 63 74 20 69  aScript object i
2010: 6e 20 61 20 4a 61 76 61 53 63 72 69 70 74 20 6d  n a JavaScript m
2020: 6f 64 75 6c 65 22 0a 20 20 20 20 20 20 20 20 77  odule".        w
2030: 69 74 68 20 6f 70 65 6e 28 73 70 66 44 65 73 74  ith open(spfDest
2040: 2c 20 22 77 22 2c 20 65 6e 63 6f 64 69 6e 67 3d  , "w", encoding=
2050: 22 75 74 66 2d 38 22 2c 20 6e 65 77 6c 69 6e 65  "utf-8", newline
2060: 3d 22 5c 6e 22 29 20 61 73 20 68 44 73 74 3a 0a  ="\n") as hDst:.
2070: 20 20 20 20 20 20 20 20 20 20 20 20 69 66 20 62              if b
2080: 49 6e 4a 53 4d 6f 64 75 6c 65 3a 0a 20 20 20 20  InJSModule:.    
2090: 20 20 20 20 20 20 20 20 20 20 20 20 68 44 73 74              hDst
20a0: 2e 77 72 69 74 65 28 27 2f 2f 20 4a 61 76 61 53  .write('// JavaS
20b0: 63 72 69 70 74 5c 6e 2f 2f 20 47 65 6e 65 72 61  cript\n// Genera
20c0: 74 65 64 20 64 61 74 61 20 28 64 6f 20 6e 6f 74  ted data (do not
20d0: 20 65 64 69 74 29 5c 6e 5c 6e 22 75 73 65 20 73   edit)\n\n"use s
20e0: 74 72 69 63 74 22 3b 5c 6e 5c 6e 63 6f 6e 73 74  trict";\n\nconst
20f0: 20 64 69 63 74 69 6f 6e 61 72 79 20 3d 20 27 29   dictionary = ')
2100: 0a 20 20 20 20 20 20 20 20 20 20 20 20 68 44 73  .            hDs
2110: 74 2e 77 72 69 74 65 28 6a 73 6f 6e 2e 64 75 6d  t.write(json.dum
2120: 70 73 28 7b 0a 20 20 20 20 20 20 20 20 20 20 20  ps({.           
2130: 20 20 20 20 20 22 73 48 65 61 64 65 72 22 3a 20       "sHeader": 
2140: 22 2f 67 72 61 6d 6d 61 6c 65 63 74 65 2d 66 73  "/grammalecte-fs
2150: 61 2f 22 2c 0a 20 20 20 20 20 20 20 20 20 20 20  a/",.           
2160: 20 20 20 20 20 22 73 4c 61 6e 67 43 6f 64 65 22       "sLangCode"
2170: 3a 20 73 65 6c 66 2e 73 4c 61 6e 67 43 6f 64 65  : self.sLangCode
2180: 2c 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ,.              
2190: 20 20 22 73 4c 61 6e 67 4e 61 6d 65 22 3a 20 73    "sLangName": s
21a0: 65 6c 66 2e 73 4c 61 6e 67 4e 61 6d 65 2c 0a 20  elf.sLangName,. 
21b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 22                 "
21c0: 73 44 69 63 4e 61 6d 65 22 3a 20 73 65 6c 66 2e  sDicName": self.
21d0: 73 44 69 63 4e 61 6d 65 2c 0a 20 20 20 20 20 20  sDicName,.      
21e0: 20 20 20 20 20 20 20 20 20 20 22 73 44 65 73 63            "sDesc
21f0: 72 69 70 74 69 6f 6e 22 3a 20 73 65 6c 66 2e 73  ription": self.s
2200: 44 65 73 63 72 69 70 74 69 6f 6e 2c 0a 20 20 20  Description,.   
2210: 20 20 20 20 20 20 20 20 20 20 20 20 20 22 73 46               "sF
2220: 69 6c 65 4e 61 6d 65 22 3a 20 73 65 6c 66 2e 73  ileName": self.s
2230: 46 69 6c 65 4e 61 6d 65 2c 0a 20 20 20 20 20 20  FileName,.      
2240: 20 20 20 20 20 20 20 20 20 20 22 73 44 61 74 65            "sDate
2250: 22 3a 20 73 65 6c 66 2e 73 44 61 74 65 2c 0a 20  ": self.sDate,. 
2260: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 22                 "
2270: 6e 45 6e 74 72 79 22 3a 20 73 65 6c 66 2e 6e 45  nEntry": self.nE
2280: 6e 74 72 79 2c 0a 20 20 20 20 20 20 20 20 20 20  ntry,.          
2290: 20 20 20 20 20 20 22 6e 43 68 61 72 22 3a 20 73        "nChar": s
22a0: 65 6c 66 2e 6e 43 68 61 72 2c 0a 20 20 20 20 20  elf.nChar,.     
22b0: 20 20 20 20 20 20 20 20 20 20 20 22 6e 41 66 66             "nAff
22c0: 22 3a 20 73 65 6c 66 2e 6e 41 66 66 2c 0a 20 20  ": self.nAff,.  
22d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 22 6e                "n
22e0: 54 61 67 22 3a 20 73 65 6c 66 2e 6e 54 61 67 2c  Tag": self.nTag,
22f0: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
2300: 20 22 63 53 74 65 6d 6d 69 6e 67 22 3a 20 73 65   "cStemming": se
2310: 6c 66 2e 63 53 74 65 6d 6d 69 6e 67 2c 0a 20 20  lf.cStemming,.  
2320: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 22 64                "d
2330: 43 68 61 72 22 3a 20 73 65 6c 66 2e 64 43 68 61  Char": self.dCha
2340: 72 2c 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  r,.             
2350: 20 20 20 22 6e 4e 6f 64 65 22 3a 20 73 65 6c 66     "nNode": self
2360: 2e 6e 4e 6f 64 65 2c 0a 20 20 20 20 20 20 20 20  .nNode,.        
2370: 20 20 20 20 20 20 20 20 22 6e 41 72 63 22 3a 20          "nArc": 
2380: 73 65 6c 66 2e 6e 41 72 63 2c 0a 20 20 20 20 20  self.nArc,.     
2390: 20 20 20 20 20 20 20 20 20 20 20 22 6e 41 72 63             "nArc
23a0: 56 61 6c 22 3a 20 73 65 6c 66 2e 6e 41 72 63 56  Val": self.nArcV
23b0: 61 6c 2c 0a 20 20 20 20 20 20 20 20 20 20 20 20  al,.            
23c0: 20 20 20 20 22 6c 41 72 63 56 61 6c 22 3a 20 73      "lArcVal": s
23d0: 65 6c 66 2e 6c 41 72 63 56 61 6c 2c 0a 20 20 20  elf.lArcVal,.   
23e0: 20 20 20 20 20 20 20 20 20 20 20 20 20 22 6e 43               "nC
23f0: 6f 6d 70 72 65 73 73 69 6f 6e 4d 65 74 68 6f 64  ompressionMethod
2400: 22 3a 20 73 65 6c 66 2e 6e 43 6f 6d 70 72 65 73  ": self.nCompres
2410: 73 69 6f 6e 4d 65 74 68 6f 64 2c 0a 20 20 20 20  sionMethod,.    
2420: 20 20 20 20 20 20 20 20 20 20 20 20 22 6e 42 79              "nBy
2430: 74 65 73 41 72 63 22 3a 20 73 65 6c 66 2e 6e 42  tesArc": self.nB
2440: 79 74 65 73 41 72 63 2c 0a 20 20 20 20 20 20 20  ytesArc,.       
2450: 20 20 20 20 20 20 20 20 20 22 6e 42 79 74 65 73           "nBytes
2460: 4e 6f 64 65 41 64 64 72 65 73 73 22 3a 20 73 65  NodeAddress": se
2470: 6c 66 2e 6e 42 79 74 65 73 4e 6f 64 65 41 64 64  lf.nBytesNodeAdd
2480: 72 65 73 73 2c 0a 20 20 20 20 20 20 20 20 20 20  ress,.          
2490: 20 20 20 20 20 20 22 6e 42 79 74 65 73 4f 66 66        "nBytesOff
24a0: 73 65 74 22 3a 20 73 65 6c 66 2e 6e 42 79 74 65  set": self.nByte
24b0: 73 4f 66 66 73 65 74 2c 0a 20 20 20 20 20 20 20  sOffset,.       
24c0: 20 20 20 20 20 20 20 20 20 23 20 4a 61 76 61 53           # JavaS
24d0: 63 72 69 70 74 20 69 73 20 61 20 70 69 6c 65 20  cript is a pile 
24e0: 6f 66 20 73 68 69 74 2c 20 73 6f 20 4d 6f 7a 69  of shit, so Mozi
24f0: 6c 6c 61 e2 80 99 73 20 4a 53 20 70 61 72 73 65  lla...s JS parse
2500: 72 20 64 6f 6e e2 80 99 74 20 6c 69 6b 65 20 66  r don...t like f
2510: 69 6c 65 20 62 69 67 67 65 72 20 74 68 61 6e 20  ile bigger than 
2520: 34 20 4d 62 21 0a 20 20 20 20 20 20 20 20 20 20  4 Mb!.          
2530: 20 20 20 20 20 20 23 20 53 6f 2c 20 69 66 20 6e        # So, if n
2540: 65 63 65 73 73 61 72 79 2c 20 77 65 20 75 73 65  ecessary, we use
2550: 20 61 6e 20 68 65 78 61 64 65 63 69 6d 61 6c 20   an hexadecimal 
2560: 73 74 72 69 6e 67 2c 20 74 68 61 74 20 77 65 20  string, that we 
2570: 77 69 6c 6c 20 63 6f 6e 76 65 72 74 20 6c 61 74  will convert lat
2580: 65 72 20 69 6e 20 46 69 72 65 66 6f 78 e2 80 99  er in Firefox...
2590: 73 20 65 78 74 65 6e 73 69 6f 6e 2e 0a 20 20 20  s extension..   
25a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 23 20 68               # h
25b0: 74 74 70 73 3a 2f 2f 67 69 74 68 75 62 2e 63 6f  ttps://github.co
25c0: 6d 2f 6d 6f 7a 69 6c 6c 61 2f 61 64 64 6f 6e 73  m/mozilla/addons
25d0: 2d 6c 69 6e 74 65 72 2f 69 73 73 75 65 73 2f 31  -linter/issues/1
25e0: 33 36 31 0a 20 20 20 20 20 20 20 20 20 20 20 20  361.            
25f0: 20 20 20 20 22 73 42 79 44 69 63 22 3a 20 73 65      "sByDic": se
2600: 6c 66 2e 62 79 44 69 63 2e 68 65 78 28 29 20 20  lf.byDic.hex()  
2610: 69 66 20 62 42 69 6e 61 72 79 44 69 63 74 41 73  if bBinaryDictAs
2620: 48 65 78 53 74 72 69 6e 67 20 20 65 6c 73 65 20  HexString  else 
2630: 5b 20 65 20 20 66 6f 72 20 65 20 69 6e 20 73 65  [ e  for e in se
2640: 6c 66 2e 62 79 44 69 63 20 5d 2c 0a 20 20 20 20  lf.byDic ],.    
2650: 20 20 20 20 20 20 20 20 20 20 20 20 22 6c 32 67              "l2g
2660: 72 61 6d 73 22 3a 20 6c 69 73 74 28 73 65 6c 66  rams": list(self
2670: 2e 61 32 67 72 61 6d 73 29 0a 20 20 20 20 20 20  .a2grams).      
2680: 20 20 20 20 20 20 7d 2c 20 65 6e 73 75 72 65 5f        }, ensure_
2690: 61 73 63 69 69 3d 46 61 6c 73 65 29 29 0a 20 20  ascii=False)).  
26a0: 20 20 20 20 20 20 20 20 20 20 69 66 20 62 49 6e            if bIn
26b0: 4a 53 4d 6f 64 75 6c 65 3a 0a 20 20 20 20 20 20  JSModule:.      
26c0: 20 20 20 20 20 20 20 20 20 20 68 44 73 74 2e 77            hDst.w
26d0: 72 69 74 65 28 22 3b 5c 6e 5c 6e 65 78 70 6f 72  rite(";\n\nexpor
26e0: 74 73 2e 64 69 63 74 69 6f 6e 61 72 79 20 3d 20  ts.dictionary = 
26f0: 64 69 63 74 69 6f 6e 61 72 79 3b 5c 6e 22 29 0a  dictionary;\n").
2700: 0a 20 20 20 20 64 65 66 20 69 73 56 61 6c 69 64  .    def isValid
2710: 54 6f 6b 65 6e 20 28 73 65 6c 66 2c 20 73 54 6f  Token (self, sTo
2720: 6b 65 6e 29 3a 0a 20 20 20 20 20 20 20 20 22 63  ken):.        "c
2730: 68 65 63 6b 73 20 69 66 20 3c 73 54 6f 6b 65 6e  hecks if <sToken
2740: 3e 20 69 73 20 76 61 6c 69 64 20 28 69 66 20 74  > is valid (if t
2750: 68 65 72 65 20 69 73 20 68 79 70 68 65 6e 73 20  here is hyphens 
2760: 69 6e 20 3c 73 54 6f 6b 65 6e 3e 2c 20 3c 73 54  in <sToken>, <sT
2770: 6f 6b 65 6e 3e 20 69 73 20 73 70 6c 69 74 2c 20  oken> is split, 
2780: 65 61 63 68 20 70 61 72 74 20 69 73 20 63 68 65  each part is che
2790: 63 6b 65 64 29 22 0a 20 20 20 20 20 20 20 20 73  cked)".        s
27a0: 54 6f 6b 65 6e 20 3d 20 63 70 2e 73 70 65 6c 6c  Token = cp.spell
27b0: 69 6e 67 4e 6f 72 6d 61 6c 69 7a 61 74 69 6f 6e  ingNormalization
27c0: 28 73 54 6f 6b 65 6e 29 0a 20 20 20 20 20 20 20  (sToken).       
27d0: 20 69 66 20 73 65 6c 66 2e 69 73 56 61 6c 69 64   if self.isValid
27e0: 28 73 54 6f 6b 65 6e 29 3a 0a 20 20 20 20 20 20  (sToken):.      
27f0: 20 20 20 20 20 20 72 65 74 75 72 6e 20 54 72 75        return Tru
2800: 65 0a 20 20 20 20 20 20 20 20 69 66 20 22 2d 22  e.        if "-"
2810: 20 69 6e 20 73 54 6f 6b 65 6e 3a 0a 20 20 20 20   in sToken:.    
2820: 20 20 20 20 20 20 20 20 69 66 20 73 54 6f 6b 65          if sToke
2830: 6e 2e 63 6f 75 6e 74 28 22 2d 22 29 20 3e 20 34  n.count("-") > 4
2840: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  :.              
2850: 20 20 72 65 74 75 72 6e 20 54 72 75 65 0a 20 20    return True.  
2860: 20 20 20 20 20 20 20 20 20 20 72 65 74 75 72 6e            return
2870: 20 61 6c 6c 28 73 65 6c 66 2e 69 73 56 61 6c 69   all(self.isVali
2880: 64 28 73 57 6f 72 64 29 20 20 66 6f 72 20 73 57  d(sWord)  for sW
2890: 6f 72 64 20 69 6e 20 73 54 6f 6b 65 6e 2e 73 70  ord in sToken.sp
28a0: 6c 69 74 28 22 2d 22 29 29 0a 20 20 20 20 20 20  lit("-")).      
28b0: 20 20 69 66 20 22 2e 22 20 69 6e 20 73 54 6f 6b    if "." in sTok
28c0: 65 6e 20 6f 72 20 22 c2 b7 22 20 69 6e 20 73 54  en or ".." in sT
28d0: 6f 6b 65 6e 3a 0a 20 20 20 20 20 20 20 20 20 20  oken:.          
28e0: 20 20 72 65 74 75 72 6e 20 54 72 75 65 0a 20 20    return True.  
28f0: 20 20 20 20 20 20 72 65 74 75 72 6e 20 46 61 6c        return Fal
2900: 73 65 0a 0a 20 20 20 20 64 65 66 20 69 73 56 61  se..    def isVa
2910: 6c 69 64 20 28 73 65 6c 66 2c 20 73 57 6f 72 64  lid (self, sWord
2920: 29 3a 0a 20 20 20 20 20 20 20 20 22 63 68 65 63  ):.        "chec
2930: 6b 73 20 69 66 20 3c 73 57 6f 72 64 3e 20 69 73  ks if <sWord> is
2940: 20 76 61 6c 69 64 20 28 64 69 66 66 65 72 65 6e   valid (differen
2950: 74 20 63 61 73 69 6e 67 20 74 65 73 74 65 64 20  t casing tested 
2960: 69 66 20 74 68 65 20 66 69 72 73 74 20 6c 65 74  if the first let
2970: 74 65 72 20 69 73 20 61 20 63 61 70 69 74 61 6c  ter is a capital
2980: 29 22 0a 20 20 20 20 20 20 20 20 69 66 20 6e 6f  )".        if no
2990: 74 20 73 57 6f 72 64 3a 0a 20 20 20 20 20 20 20  t sWord:.       
29a0: 20 20 20 20 20 72 65 74 75 72 6e 20 4e 6f 6e 65       return None
29b0: 0a 20 20 20 20 20 20 20 20 69 66 20 22 27 22 20  .        if "'" 
29c0: 69 6e 20 73 57 6f 72 64 3a 20 23 20 75 67 6c 79  in sWord: # ugly
29d0: 20 68 61 63 6b 0a 20 20 20 20 20 20 20 20 20 20   hack.          
29e0: 20 20 73 57 6f 72 64 20 3d 20 73 57 6f 72 64 2e    sWord = sWord.
29f0: 72 65 70 6c 61 63 65 28 22 27 22 2c 20 22 e2 80  replace("'", "..
2a00: 99 22 29 0a 20 20 20 20 20 20 20 20 69 66 20 73  .").        if s
2a10: 65 6c 66 2e 6c 6f 6f 6b 75 70 28 73 57 6f 72 64  elf.lookup(sWord
2a20: 29 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 72  ):.            r
2a30: 65 74 75 72 6e 20 54 72 75 65 0a 20 20 20 20 20  eturn True.     
2a40: 20 20 20 69 66 20 73 57 6f 72 64 5b 30 3a 31 5d     if sWord[0:1]
2a50: 2e 69 73 75 70 70 65 72 28 29 3a 0a 20 20 20 20  .isupper():.    
2a60: 20 20 20 20 20 20 20 20 69 66 20 6c 65 6e 28 73          if len(s
2a70: 57 6f 72 64 29 20 3e 20 31 3a 0a 20 20 20 20 20  Word) > 1:.     
2a80: 20 20 20 20 20 20 20 20 20 20 20 69 66 20 73 57             if sW
2a90: 6f 72 64 2e 69 73 74 69 74 6c 65 28 29 3a 0a 20  ord.istitle():. 
2aa0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2ab0: 20 20 20 72 65 74 75 72 6e 20 73 65 6c 66 2e 6c     return self.l
2ac0: 6f 6f 6b 75 70 28 73 57 6f 72 64 2e 6c 6f 77 65  ookup(sWord.lowe
2ad0: 72 28 29 29 0a 20 20 20 20 20 20 20 20 20 20 20  r()).           
2ae0: 20 20 20 20 20 69 66 20 73 57 6f 72 64 2e 69 73       if sWord.is
2af0: 75 70 70 65 72 28 29 3a 0a 20 20 20 20 20 20 20  upper():.       
2b00: 20 20 20 20 20 20 20 20 20 20 20 20 20 69 66 20               if 
2b10: 73 65 6c 66 2e 62 41 63 72 6f 6e 79 6d 56 61 6c  self.bAcronymVal
2b20: 69 64 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  id:.            
2b30: 20 20 20 20 20 20 20 20 20 20 20 20 72 65 74 75              retu
2b40: 72 6e 20 54 72 75 65 0a 20 20 20 20 20 20 20 20  rn True.        
2b50: 20 20 20 20 20 20 20 20 20 20 20 20 72 65 74 75              retu
2b60: 72 6e 20 73 65 6c 66 2e 6c 6f 6f 6b 75 70 28 73  rn self.lookup(s
2b70: 57 6f 72 64 2e 6c 6f 77 65 72 28 29 29 20 6f 72  Word.lower()) or
2b80: 20 73 65 6c 66 2e 6c 6f 6f 6b 75 70 28 73 57 6f   self.lookup(sWo
2b90: 72 64 2e 63 61 70 69 74 61 6c 69 7a 65 28 29 29  rd.capitalize())
2ba0: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
2bb0: 20 72 65 74 75 72 6e 20 73 65 6c 66 2e 6c 6f 6f   return self.loo
2bc0: 6b 75 70 28 73 57 6f 72 64 5b 3a 31 5d 2e 6c 6f  kup(sWord[:1].lo
2bd0: 77 65 72 28 29 20 2b 20 73 57 6f 72 64 5b 31 3a  wer() + sWord[1:
2be0: 5d 29 0a 20 20 20 20 20 20 20 20 20 20 20 20 72  ]).            r
2bf0: 65 74 75 72 6e 20 73 65 6c 66 2e 6c 6f 6f 6b 75  eturn self.looku
2c00: 70 28 73 57 6f 72 64 2e 6c 6f 77 65 72 28 29 29  p(sWord.lower())
2c10: 0a 20 20 20 20 20 20 20 20 69 66 20 73 57 6f 72  .        if sWor
2c20: 64 5b 30 3a 31 5d 2e 69 73 64 69 67 69 74 28 29  d[0:1].isdigit()
2c30: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 72 65  :.            re
2c40: 74 75 72 6e 20 54 72 75 65 0a 20 20 20 20 20 20  turn True.      
2c50: 20 20 72 65 74 75 72 6e 20 46 61 6c 73 65 0a 0a    return False..
2c60: 20 20 20 20 64 65 66 20 6c 6f 6f 6b 75 70 20 28      def lookup (
2c70: 73 65 6c 66 2c 20 73 57 6f 72 64 29 3a 0a 20 20  self, sWord):.  
2c80: 20 20 20 20 20 20 22 72 65 74 75 72 6e 73 20 54        "returns T
2c90: 72 75 65 20 69 66 20 3c 73 57 6f 72 64 3e 20 69  rue if <sWord> i
2ca0: 6e 20 64 69 63 74 69 6f 6e 61 72 79 20 28 73 74  n dictionary (st
2cb0: 72 69 63 74 20 76 65 72 69 66 69 63 61 74 69 6f  rict verificatio
2cc0: 6e 29 22 0a 20 20 20 20 20 20 20 20 69 41 64 64  n)".        iAdd
2cd0: 72 20 3d 20 30 0a 20 20 20 20 20 20 20 20 66 6f  r = 0.        fo
2ce0: 72 20 63 20 69 6e 20 73 57 6f 72 64 3a 0a 20 20  r c in sWord:.  
2cf0: 20 20 20 20 20 20 20 20 20 20 69 66 20 63 20 6e            if c n
2d00: 6f 74 20 69 6e 20 73 65 6c 66 2e 64 43 68 61 72  ot in self.dChar
2d10: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  :.              
2d20: 20 20 72 65 74 75 72 6e 20 46 61 6c 73 65 0a 20    return False. 
2d30: 20 20 20 20 20 20 20 20 20 20 20 69 41 64 64 72             iAddr
2d40: 20 3d 20 73 65 6c 66 2e 5f 6c 6f 6f 6b 75 70 41   = self._lookupA
2d50: 72 63 4e 6f 64 65 28 73 65 6c 66 2e 64 43 68 61  rcNode(self.dCha
2d60: 72 5b 63 5d 2c 20 69 41 64 64 72 29 0a 20 20 20  r[c], iAddr).   
2d70: 20 20 20 20 20 20 20 20 20 69 66 20 69 41 64 64           if iAdd
2d80: 72 20 69 73 20 4e 6f 6e 65 3a 0a 20 20 20 20 20  r is None:.     
2d90: 20 20 20 20 20 20 20 20 20 20 20 72 65 74 75 72             retur
2da0: 6e 20 46 61 6c 73 65 0a 20 20 20 20 20 20 20 20  n False.        
2db0: 72 65 74 75 72 6e 20 62 6f 6f 6c 28 69 6e 74 2e  return bool(int.
2dc0: 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e  from_bytes(self.
2dd0: 62 79 44 69 63 5b 69 41 64 64 72 3a 69 41 64 64  byDic[iAddr:iAdd
2de0: 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73 41 72 63  r+self.nBytesArc
2df0: 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d 27 62 69  ], byteorder='bi
2e00: 67 27 29 20 26 20 73 65 6c 66 2e 5f 66 69 6e 61  g') & self._fina
2e10: 6c 4e 6f 64 65 4d 61 73 6b 29 0a 0a 20 20 20 20  lNodeMask)..    
2e20: 64 65 66 20 67 65 74 4d 6f 72 70 68 20 28 73 65  def getMorph (se
2e30: 6c 66 2c 20 73 57 6f 72 64 29 3a 0a 20 20 20 20  lf, sWord):.    
2e40: 20 20 20 20 22 72 65 74 72 69 65 76 65 73 20 6d      "retrieves m
2e50: 6f 72 70 68 6f 6c 6f 67 69 65 73 20 6c 69 73 74  orphologies list
2e60: 2c 20 64 69 66 66 65 72 65 6e 74 20 63 61 73 69  , different casi
2e70: 6e 67 20 61 6c 6c 6f 77 65 64 22 0a 20 20 20 20  ng allowed".    
2e80: 20 20 20 20 73 57 6f 72 64 20 3d 20 63 70 2e 73      sWord = cp.s
2e90: 70 65 6c 6c 69 6e 67 4e 6f 72 6d 61 6c 69 7a 61  pellingNormaliza
2ea0: 74 69 6f 6e 28 73 57 6f 72 64 29 0a 20 20 20 20  tion(sWord).    
2eb0: 20 20 20 20 6c 20 3d 20 73 65 6c 66 2e 6d 6f 72      l = self.mor
2ec0: 70 68 28 73 57 6f 72 64 29 0a 20 20 20 20 20 20  ph(sWord).      
2ed0: 20 20 69 66 20 73 57 6f 72 64 5b 30 3a 31 5d 2e    if sWord[0:1].
2ee0: 69 73 75 70 70 65 72 28 29 3a 0a 20 20 20 20 20  isupper():.     
2ef0: 20 20 20 20 20 20 20 6c 2e 65 78 74 65 6e 64 28         l.extend(
2f00: 73 65 6c 66 2e 6d 6f 72 70 68 28 73 57 6f 72 64  self.morph(sWord
2f10: 2e 6c 6f 77 65 72 28 29 29 29 0a 20 20 20 20 20  .lower())).     
2f20: 20 20 20 20 20 20 20 69 66 20 73 57 6f 72 64 2e         if sWord.
2f30: 69 73 75 70 70 65 72 28 29 20 61 6e 64 20 6c 65  isupper() and le
2f40: 6e 28 73 57 6f 72 64 29 20 3e 20 31 3a 0a 20 20  n(sWord) > 1:.  
2f50: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 6c 2e                l.
2f60: 65 78 74 65 6e 64 28 73 65 6c 66 2e 6d 6f 72 70  extend(self.morp
2f70: 68 28 73 57 6f 72 64 2e 63 61 70 69 74 61 6c 69  h(sWord.capitali
2f80: 7a 65 28 29 29 29 0a 20 20 20 20 20 20 20 20 72  ze())).        r
2f90: 65 74 75 72 6e 20 6c 0a 0a 20 20 20 20 23 40 74  eturn l..    #@t
2fa0: 69 6d 65 74 68 69 73 0a 20 20 20 20 64 65 66 20  imethis.    def 
2fb0: 73 75 67 67 65 73 74 20 28 73 65 6c 66 2c 20 73  suggest (self, s
2fc0: 57 6f 72 64 2c 20 6e 53 75 67 67 4c 69 6d 69 74  Word, nSuggLimit
2fd0: 3d 31 30 2c 20 62 53 70 6c 69 74 54 72 61 69 6c  =10, bSplitTrail
2fe0: 69 6e 67 4e 75 6d 62 65 72 73 3d 46 61 6c 73 65  ingNumbers=False
2ff0: 29 3a 0a 20 20 20 20 20 20 20 20 22 72 65 74 75  ):.        "retu
3000: 72 6e 73 20 61 20 73 65 74 20 6f 66 20 73 75 67  rns a set of sug
3010: 67 65 73 74 69 6f 6e 73 20 66 6f 72 20 3c 73 57  gestions for <sW
3020: 6f 72 64 3e 22 0a 20 20 20 20 20 20 20 20 73 57  ord>".        sW
3030: 6f 72 64 20 3d 20 73 57 6f 72 64 2e 72 73 74 72  ord = sWord.rstr
3040: 69 70 28 22 2e 22 29 20 20 20 23 20 75 73 65 66  ip(".")   # usef
3050: 75 6c 20 66 6f 72 20 4c 69 62 72 65 4f 66 66 69  ul for LibreOffi
3060: 63 65 0a 20 20 20 20 20 20 20 20 73 57 6f 72 64  ce.        sWord
3070: 20 3d 20 63 70 2e 73 70 65 6c 6c 69 6e 67 4e 6f   = cp.spellingNo
3080: 72 6d 61 6c 69 7a 61 74 69 6f 6e 28 73 57 6f 72  rmalization(sWor
3090: 64 29 0a 20 20 20 20 20 20 20 20 73 50 66 78 2c  d).        sPfx,
30a0: 20 73 57 6f 72 64 2c 20 73 53 66 78 20 3d 20 63   sWord, sSfx = c
30b0: 70 2e 63 75 74 28 73 57 6f 72 64 29 0a 20 20 20  p.cut(sWord).   
30c0: 20 20 20 20 20 6e 4d 61 78 53 77 69 74 63 68 20       nMaxSwitch 
30d0: 3d 20 6d 61 78 28 6c 65 6e 28 73 57 6f 72 64 29  = max(len(sWord)
30e0: 20 2f 2f 20 33 2c 20 31 29 0a 20 20 20 20 20 20   // 3, 1).      
30f0: 20 20 6e 4d 61 78 44 65 6c 20 3d 20 6c 65 6e 28    nMaxDel = len(
3100: 73 57 6f 72 64 29 20 2f 2f 20 35 0a 20 20 20 20  sWord) // 5.    
3110: 20 20 20 20 6e 4d 61 78 48 61 72 64 52 65 70 6c      nMaxHardRepl
3120: 20 3d 20 6d 61 78 28 28 6c 65 6e 28 73 57 6f 72   = max((len(sWor
3130: 64 29 20 2d 20 35 29 20 2f 2f 20 34 2c 20 31 29  d) - 5) // 4, 1)
3140: 0a 20 20 20 20 20 20 20 20 6e 4d 61 78 4a 75 6d  .        nMaxJum
3150: 70 20 3d 20 6d 61 78 28 6c 65 6e 28 73 57 6f 72  p = max(len(sWor
3160: 64 29 20 2f 2f 20 34 2c 20 31 29 0a 20 20 20 20  d) // 4, 1).    
3170: 20 20 20 20 6f 53 75 67 67 52 65 73 75 6c 74 20      oSuggResult 
3180: 3d 20 53 75 67 67 52 65 73 75 6c 74 28 73 57 6f  = SuggResult(sWo
3190: 72 64 29 0a 20 20 20 20 20 20 20 20 69 66 20 62  rd).        if b
31a0: 53 70 6c 69 74 54 72 61 69 6c 69 6e 67 4e 75 6d  SplitTrailingNum
31b0: 62 65 72 73 3a 0a 20 20 20 20 20 20 20 20 20 20  bers:.          
31c0: 20 20 73 65 6c 66 2e 5f 73 70 6c 69 74 54 72 61    self._splitTra
31d0: 69 6c 69 6e 67 4e 75 6d 62 65 72 73 28 6f 53 75  ilingNumbers(oSu
31e0: 67 67 52 65 73 75 6c 74 2c 20 73 57 6f 72 64 29  ggResult, sWord)
31f0: 0a 20 20 20 20 20 20 20 20 73 65 6c 66 2e 5f 73  .        self._s
3200: 70 6c 69 74 53 75 67 67 65 73 74 28 6f 53 75 67  plitSuggest(oSug
3210: 67 52 65 73 75 6c 74 2c 20 73 57 6f 72 64 29 0a  gResult, sWord).
3220: 20 20 20 20 20 20 20 20 73 65 6c 66 2e 5f 73 75          self._su
3230: 67 67 65 73 74 28 6f 53 75 67 67 52 65 73 75 6c  ggest(oSuggResul
3240: 74 2c 20 73 57 6f 72 64 2c 20 6e 4d 61 78 53 77  t, sWord, nMaxSw
3250: 69 74 63 68 2c 20 6e 4d 61 78 44 65 6c 2c 20 6e  itch, nMaxDel, n
3260: 4d 61 78 48 61 72 64 52 65 70 6c 2c 20 6e 4d 61  MaxHardRepl, nMa
3270: 78 4a 75 6d 70 29 0a 20 20 20 20 20 20 20 20 61  xJump).        a
3280: 53 75 67 67 20 3d 20 6f 53 75 67 67 52 65 73 75  Sugg = oSuggResu
3290: 6c 74 2e 67 65 74 53 75 67 67 65 73 74 69 6f 6e  lt.getSuggestion
32a0: 73 28 6e 53 75 67 67 4c 69 6d 69 74 29 0a 20 20  s(nSuggLimit).  
32b0: 20 20 20 20 20 20 69 66 20 73 53 66 78 20 6f 72        if sSfx or
32c0: 20 73 50 66 78 3a 0a 20 20 20 20 20 20 20 20 20   sPfx:.         
32d0: 20 20 20 23 20 77 65 20 61 64 64 20 77 68 61 74     # we add what
32e0: 20 77 65 20 72 65 6d 6f 76 65 64 0a 20 20 20 20   we removed.    
32f0: 20 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 6c          return l
3300: 69 73 74 28 6d 61 70 28 6c 61 6d 62 64 61 20 73  ist(map(lambda s
3310: 53 75 67 3a 20 73 50 66 78 20 2b 20 73 53 75 67  Sug: sPfx + sSug
3320: 20 2b 20 73 53 66 78 2c 20 61 53 75 67 67 29 29   + sSfx, aSugg))
3330: 0a 20 20 20 20 20 20 20 20 72 65 74 75 72 6e 20  .        return 
3340: 61 53 75 67 67 0a 0a 20 20 20 20 64 65 66 20 5f  aSugg..    def _
3350: 73 70 6c 69 74 54 72 61 69 6c 69 6e 67 4e 75 6d  splitTrailingNum
3360: 62 65 72 73 20 28 73 65 6c 66 2c 20 6f 53 75 67  bers (self, oSug
3370: 67 52 65 73 75 6c 74 2c 20 73 57 6f 72 64 29 3a  gResult, sWord):
3380: 0a 20 20 20 20 20 20 20 20 6d 20 3d 20 72 65 2e  .        m = re.
3390: 6d 61 74 63 68 28 72 22 28 5c 44 2b 29 28 5b 30  match(r"(\D+)([0
33a0: 2d 39 5d 2b 29 24 22 2c 20 73 57 6f 72 64 29 0a  -9]+)$", sWord).
33b0: 20 20 20 20 20 20 20 20 69 66 20 6d 3a 0a 20 20          if m:.  
33c0: 20 20 20 20 20 20 20 20 20 20 6f 53 75 67 67 52            oSuggR
33d0: 65 73 75 6c 74 2e 61 64 64 53 75 67 67 28 6d 2e  esult.addSugg(m.
33e0: 67 72 6f 75 70 28 31 29 20 2b 20 22 c2 a0 22 20  group(1) + ".." 
33f0: 2b 20 63 70 2e 6e 75 6d 62 65 72 73 54 6f 45 78  + cp.numbersToEx
3400: 70 6f 6e 65 6e 74 28 6d 2e 67 72 6f 75 70 28 32  ponent(m.group(2
3410: 29 29 29 0a 0a 20 20 20 20 64 65 66 20 5f 73 70  )))..    def _sp
3420: 6c 69 74 53 75 67 67 65 73 74 20 28 73 65 6c 66  litSuggest (self
3430: 2c 20 6f 53 75 67 67 52 65 73 75 6c 74 2c 20 73  , oSuggResult, s
3440: 57 6f 72 64 29 3a 0a 20 20 20 20 20 20 20 20 23  Word):.        #
3450: 20 73 70 6c 69 74 20 61 74 20 61 70 6f 73 74 72   split at apostr
3460: 6f 70 68 65 73 0a 20 20 20 20 20 20 20 20 66 6f  ophes.        fo
3470: 72 20 63 53 70 6c 69 74 74 65 72 20 69 6e 20 22  r cSplitter in "
3480: 27 e2 80 99 22 3a 0a 20 20 20 20 20 20 20 20 20  '...":.         
3490: 20 20 20 69 66 20 63 53 70 6c 69 74 74 65 72 20     if cSplitter 
34a0: 69 6e 20 73 57 6f 72 64 3a 0a 20 20 20 20 20 20  in sWord:.      
34b0: 20 20 20 20 20 20 20 20 20 20 73 57 6f 72 64 31            sWord1
34c0: 2c 20 73 57 6f 72 64 32 20 3d 20 73 57 6f 72 64  , sWord2 = sWord
34d0: 2e 73 70 6c 69 74 28 63 53 70 6c 69 74 74 65 72  .split(cSplitter
34e0: 2c 20 31 29 0a 20 20 20 20 20 20 20 20 20 20 20  , 1).           
34f0: 20 20 20 20 20 69 66 20 73 65 6c 66 2e 69 73 56       if self.isV
3500: 61 6c 69 64 28 73 57 6f 72 64 31 29 20 61 6e 64  alid(sWord1) and
3510: 20 73 65 6c 66 2e 69 73 56 61 6c 69 64 28 73 57   self.isValid(sW
3520: 6f 72 64 32 29 3a 0a 20 20 20 20 20 20 20 20 20  ord2):.         
3530: 20 20 20 20 20 20 20 20 20 20 20 6f 53 75 67 67             oSugg
3540: 52 65 73 75 6c 74 2e 61 64 64 53 75 67 67 28 73  Result.addSugg(s
3550: 57 6f 72 64 31 2b 22 20 22 2b 73 57 6f 72 64 32  Word1+" "+sWord2
3560: 29 0a 0a 20 20 20 20 64 65 66 20 5f 73 75 67 67  )..    def _sugg
3570: 65 73 74 20 28 73 65 6c 66 2c 20 6f 53 75 67 67  est (self, oSugg
3580: 52 65 73 75 6c 74 2c 20 73 52 65 6d 61 69 6e 2c  Result, sRemain,
3590: 20 6e 4d 61 78 53 77 69 74 63 68 3d 30 2c 20 6e   nMaxSwitch=0, n
35a0: 4d 61 78 44 65 6c 3d 30 2c 20 6e 4d 61 78 48 61  MaxDel=0, nMaxHa
35b0: 72 64 52 65 70 6c 3d 30 2c 20 6e 4d 61 78 4a 75  rdRepl=0, nMaxJu
35c0: 6d 70 3d 30 2c 20 6e 44 69 73 74 3d 30 2c 20 6e  mp=0, nDist=0, n
35d0: 44 65 65 70 3d 30 2c 20 69 41 64 64 72 3d 30 2c  Deep=0, iAddr=0,
35e0: 20 73 4e 65 77 57 6f 72 64 3d 22 22 2c 20 62 41   sNewWord="", bA
35f0: 76 6f 69 64 4c 6f 6f 70 3d 46 61 6c 73 65 29 3a  voidLoop=False):
3600: 0a 20 20 20 20 20 20 20 20 23 20 72 65 63 75 72  .        # recur
3610: 73 69 76 65 20 66 75 6e 63 74 69 6f 6e 0a 20 20  sive function.  
3620: 20 20 20 20 20 20 23 6c 6f 67 67 69 6e 67 2e 69        #logging.i
3630: 6e 66 6f 28 28 6e 44 65 65 70 20 2a 20 22 20 20  nfo((nDeep * "  
3640: 22 29 20 2b 20 73 4e 65 77 57 6f 72 64 20 2b 20  ") + sNewWord + 
3650: 22 3a 22 20 2b 20 73 52 65 6d 61 69 6e 29 0a 20  ":" + sRemain). 
3660: 20 20 20 20 20 20 20 69 66 20 69 6e 74 2e 66 72         if int.fr
3670: 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e 62 79  om_bytes(self.by
3680: 44 69 63 5b 69 41 64 64 72 3a 69 41 64 64 72 2b  Dic[iAddr:iAddr+
3690: 73 65 6c 66 2e 6e 42 79 74 65 73 41 72 63 5d 2c  self.nBytesArc],
36a0: 20 62 79 74 65 6f 72 64 65 72 3d 27 62 69 67 27   byteorder='big'
36b0: 29 20 26 20 73 65 6c 66 2e 5f 66 69 6e 61 6c 4e  ) & self._finalN
36c0: 6f 64 65 4d 61 73 6b 3a 0a 20 20 20 20 20 20 20  odeMask:.       
36d0: 20 20 20 20 20 69 66 20 6e 6f 74 20 73 52 65 6d       if not sRem
36e0: 61 69 6e 3a 0a 20 20 20 20 20 20 20 20 20 20 20  ain:.           
36f0: 20 20 20 20 20 6f 53 75 67 67 52 65 73 75 6c 74       oSuggResult
3700: 2e 61 64 64 53 75 67 67 28 73 4e 65 77 57 6f 72  .addSugg(sNewWor
3710: 64 2c 20 6e 44 65 65 70 29 0a 20 20 20 20 20 20  d, nDeep).      
3720: 20 20 20 20 20 20 20 20 20 20 66 6f 72 20 73 54            for sT
3730: 61 69 6c 20 69 6e 20 73 65 6c 66 2e 5f 67 65 74  ail in self._get
3740: 54 61 69 6c 73 28 69 41 64 64 72 29 3a 0a 20 20  Tails(iAddr):.  
3750: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3760: 20 20 6f 53 75 67 67 52 65 73 75 6c 74 2e 61 64    oSuggResult.ad
3770: 64 53 75 67 67 28 73 4e 65 77 57 6f 72 64 2b 73  dSugg(sNewWord+s
3780: 54 61 69 6c 2c 20 6e 44 65 65 70 29 0a 20 20 20  Tail, nDeep).   
3790: 20 20 20 20 20 20 20 20 20 20 20 20 20 72 65 74               ret
37a0: 75 72 6e 0a 20 20 20 20 20 20 20 20 20 20 20 20  urn.            
37b0: 69 66 20 28 6c 65 6e 28 73 4e 65 77 57 6f 72 64  if (len(sNewWord
37c0: 29 20 2b 20 6c 65 6e 28 73 52 65 6d 61 69 6e 29  ) + len(sRemain)
37d0: 20 3d 3d 20 6c 65 6e 28 6f 53 75 67 67 52 65 73   == len(oSuggRes
37e0: 75 6c 74 2e 73 57 6f 72 64 29 29 20 61 6e 64 20  ult.sWord)) and 
37f0: 6f 53 75 67 67 52 65 73 75 6c 74 2e 73 57 6f 72  oSuggResult.sWor
3800: 64 2e 6c 6f 77 65 72 28 29 2e 73 74 61 72 74 73  d.lower().starts
3810: 77 69 74 68 28 73 4e 65 77 57 6f 72 64 2e 6c 6f  with(sNewWord.lo
3820: 77 65 72 28 29 29 20 61 6e 64 20 73 65 6c 66 2e  wer()) and self.
3830: 69 73 56 61 6c 69 64 28 73 52 65 6d 61 69 6e 29  isValid(sRemain)
3840: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  :.              
3850: 20 20 6f 53 75 67 67 52 65 73 75 6c 74 2e 61 64    oSuggResult.ad
3860: 64 53 75 67 67 28 73 4e 65 77 57 6f 72 64 2b 22  dSugg(sNewWord+"
3870: 20 22 2b 73 52 65 6d 61 69 6e 29 0a 20 20 20 20   "+sRemain).    
3880: 20 20 20 20 69 66 20 6e 44 69 73 74 20 3e 20 6f      if nDist > o
3890: 53 75 67 67 52 65 73 75 6c 74 2e 6e 44 69 73 74  SuggResult.nDist
38a0: 4c 69 6d 69 74 3a 0a 20 20 20 20 20 20 20 20 20  Limit:.         
38b0: 20 20 20 72 65 74 75 72 6e 0a 20 20 20 20 20 20     return.      
38c0: 20 20 63 43 75 72 72 65 6e 74 20 3d 20 73 52 65    cCurrent = sRe
38d0: 6d 61 69 6e 5b 30 3a 31 5d 0a 20 20 20 20 20 20  main[0:1].      
38e0: 20 20 66 6f 72 20 63 43 68 61 72 2c 20 6a 41 64    for cChar, jAd
38f0: 64 72 20 69 6e 20 73 65 6c 66 2e 5f 67 65 74 43  dr in self._getC
3900: 68 61 72 41 72 63 73 28 69 41 64 64 72 29 3a 0a  harArcs(iAddr):.
3910: 20 20 20 20 20 20 20 20 20 20 20 20 69 66 20 63              if c
3920: 43 68 61 72 20 69 6e 20 63 70 2e 64 31 74 6f 31  Char in cp.d1to1
3930: 2e 67 65 74 28 63 43 75 72 72 65 6e 74 2c 20 63  .get(cCurrent, c
3940: 43 75 72 72 65 6e 74 29 3a 0a 20 20 20 20 20 20  Current):.      
3950: 20 20 20 20 20 20 20 20 20 20 73 65 6c 66 2e 5f            self._
3960: 73 75 67 67 65 73 74 28 6f 53 75 67 67 52 65 73  suggest(oSuggRes
3970: 75 6c 74 2c 20 73 52 65 6d 61 69 6e 5b 31 3a 5d  ult, sRemain[1:]
3980: 2c 20 6e 4d 61 78 53 77 69 74 63 68 2c 20 6e 4d  , nMaxSwitch, nM
3990: 61 78 44 65 6c 2c 20 6e 4d 61 78 48 61 72 64 52  axDel, nMaxHardR
39a0: 65 70 6c 2c 20 6e 4d 61 78 4a 75 6d 70 2c 20 6e  epl, nMaxJump, n
39b0: 44 69 73 74 2c 20 6e 44 65 65 70 2b 31 2c 20 6a  Dist, nDeep+1, j
39c0: 41 64 64 72 2c 20 73 4e 65 77 57 6f 72 64 2b 63  Addr, sNewWord+c
39d0: 43 68 61 72 29 0a 20 20 20 20 20 20 20 20 20 20  Char).          
39e0: 20 20 65 6c 69 66 20 6e 6f 74 20 62 41 76 6f 69    elif not bAvoi
39f0: 64 4c 6f 6f 70 3a 0a 20 20 20 20 20 20 20 20 20  dLoop:.         
3a00: 20 20 20 20 20 20 20 69 66 20 6e 4d 61 78 48 61         if nMaxHa
3a10: 72 64 52 65 70 6c 20 61 6e 64 20 73 65 6c 66 2e  rdRepl and self.
3a20: 69 73 4e 67 72 61 6d 73 4f 4b 28 63 43 68 61 72  isNgramsOK(cChar
3a30: 2b 73 52 65 6d 61 69 6e 5b 31 3a 32 5d 29 3a 0a  +sRemain[1:2]):.
3a40: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3a50: 20 20 20 20 73 65 6c 66 2e 5f 73 75 67 67 65 73      self._sugges
3a60: 74 28 6f 53 75 67 67 52 65 73 75 6c 74 2c 20 73  t(oSuggResult, s
3a70: 52 65 6d 61 69 6e 5b 31 3a 5d 2c 20 6e 4d 61 78  Remain[1:], nMax
3a80: 53 77 69 74 63 68 2c 20 6e 4d 61 78 44 65 6c 2c  Switch, nMaxDel,
3a90: 20 6e 4d 61 78 48 61 72 64 52 65 70 6c 2d 31 2c   nMaxHardRepl-1,
3aa0: 20 6e 4d 61 78 4a 75 6d 70 2c 20 6e 44 69 73 74   nMaxJump, nDist
3ab0: 2b 31 2c 20 6e 44 65 65 70 2b 31 2c 20 6a 41 64  +1, nDeep+1, jAd
3ac0: 64 72 2c 20 73 4e 65 77 57 6f 72 64 2b 63 43 68  dr, sNewWord+cCh
3ad0: 61 72 2c 20 54 72 75 65 29 0a 20 20 20 20 20 20  ar, True).      
3ae0: 20 20 20 20 20 20 20 20 20 20 69 66 20 6e 4d 61            if nMa
3af0: 78 4a 75 6d 70 3a 0a 20 20 20 20 20 20 20 20 20  xJump:.         
3b00: 20 20 20 20 20 20 20 20 20 20 20 73 65 6c 66 2e             self.
3b10: 5f 73 75 67 67 65 73 74 28 6f 53 75 67 67 52 65  _suggest(oSuggRe
3b20: 73 75 6c 74 2c 20 73 52 65 6d 61 69 6e 2c 20 6e  sult, sRemain, n
3b30: 4d 61 78 53 77 69 74 63 68 2c 20 6e 4d 61 78 44  MaxSwitch, nMaxD
3b40: 65 6c 2c 20 6e 4d 61 78 48 61 72 64 52 65 70 6c  el, nMaxHardRepl
3b50: 2c 20 6e 4d 61 78 4a 75 6d 70 2d 31 2c 20 6e 44  , nMaxJump-1, nD
3b60: 69 73 74 2b 31 2c 20 6e 44 65 65 70 2b 31 2c 20  ist+1, nDeep+1, 
3b70: 6a 41 64 64 72 2c 20 73 4e 65 77 57 6f 72 64 2b  jAddr, sNewWord+
3b80: 63 43 68 61 72 2c 20 54 72 75 65 29 0a 20 20 20  cChar, True).   
3b90: 20 20 20 20 20 69 66 20 6e 6f 74 20 62 41 76 6f       if not bAvo
3ba0: 69 64 4c 6f 6f 70 3a 20 23 20 61 76 6f 69 64 20  idLoop: # avoid 
3bb0: 69 6e 66 69 6e 69 74 65 20 6c 6f 6f 70 0a 20 20  infinite loop.  
3bc0: 20 20 20 20 20 20 20 20 20 20 69 66 20 6c 65 6e            if len
3bd0: 28 73 52 65 6d 61 69 6e 29 20 3e 20 31 3a 0a 20  (sRemain) > 1:. 
3be0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 69                 i
3bf0: 66 20 63 43 75 72 72 65 6e 74 20 3d 3d 20 73 52  f cCurrent == sR
3c00: 65 6d 61 69 6e 5b 31 3a 32 5d 3a 0a 20 20 20 20  emain[1:2]:.    
3c10: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3c20: 23 20 73 61 6d 65 20 63 68 61 72 2c 20 77 65 20  # same char, we 
3c30: 72 65 6d 6f 76 65 20 31 20 63 68 61 72 20 77 69  remove 1 char wi
3c40: 74 68 6f 75 74 20 61 64 64 69 6e 67 20 31 20 74  thout adding 1 t
3c50: 6f 20 3c 73 4e 65 77 57 6f 72 64 3e 0a 20 20 20  o <sNewWord>.   
3c60: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3c70: 20 73 65 6c 66 2e 5f 73 75 67 67 65 73 74 28 6f   self._suggest(o
3c80: 53 75 67 67 52 65 73 75 6c 74 2c 20 73 52 65 6d  SuggResult, sRem
3c90: 61 69 6e 5b 31 3a 5d 2c 20 6e 4d 61 78 53 77 69  ain[1:], nMaxSwi
3ca0: 74 63 68 2c 20 6e 4d 61 78 44 65 6c 2c 20 6e 4d  tch, nMaxDel, nM
3cb0: 61 78 48 61 72 64 52 65 70 6c 2c 20 6e 4d 61 78  axHardRepl, nMax
3cc0: 4a 75 6d 70 2c 20 6e 44 69 73 74 2c 20 6e 44 65  Jump, nDist, nDe
3cd0: 65 70 2b 31 2c 20 69 41 64 64 72 2c 20 73 4e 65  ep+1, iAddr, sNe
3ce0: 77 57 6f 72 64 29 0a 20 20 20 20 20 20 20 20 20  wWord).         
3cf0: 20 20 20 20 20 20 20 65 6c 73 65 3a 0a 20 20 20         else:.   
3d00: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3d10: 20 23 20 73 77 69 74 63 68 69 6e 67 20 63 68 61   # switching cha
3d20: 72 73 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  rs.             
3d30: 20 20 20 20 20 20 20 69 66 20 6e 4d 61 78 53 77         if nMaxSw
3d40: 69 74 63 68 20 61 6e 64 20 73 65 6c 66 2e 69 73  itch and self.is
3d50: 4e 67 72 61 6d 73 4f 4b 28 73 4e 65 77 57 6f 72  NgramsOK(sNewWor
3d60: 64 5b 2d 31 3a 5d 2b 73 52 65 6d 61 69 6e 5b 31  d[-1:]+sRemain[1
3d70: 3a 32 5d 29 20 61 6e 64 20 73 65 6c 66 2e 69 73  :2]) and self.is
3d80: 4e 67 72 61 6d 73 4f 4b 28 73 52 65 6d 61 69 6e  NgramsOK(sRemain
3d90: 5b 31 3a 32 5d 2b 73 52 65 6d 61 69 6e 5b 30 3a  [1:2]+sRemain[0:
3da0: 31 5d 29 3a 0a 20 20 20 20 20 20 20 20 20 20 20  1]):.           
3db0: 20 20 20 20 20 20 20 20 20 20 20 20 20 73 65 6c               sel
3dc0: 66 2e 5f 73 75 67 67 65 73 74 28 6f 53 75 67 67  f._suggest(oSugg
3dd0: 52 65 73 75 6c 74 2c 20 73 52 65 6d 61 69 6e 5b  Result, sRemain[
3de0: 31 3a 32 5d 2b 73 52 65 6d 61 69 6e 5b 30 3a 31  1:2]+sRemain[0:1
3df0: 5d 2b 73 52 65 6d 61 69 6e 5b 32 3a 5d 2c 20 6e  ]+sRemain[2:], n
3e00: 4d 61 78 53 77 69 74 63 68 2d 31 2c 20 6e 4d 61  MaxSwitch-1, nMa
3e10: 78 44 65 6c 2c 20 6e 4d 61 78 48 61 72 64 52 65  xDel, nMaxHardRe
3e20: 70 6c 2c 20 6e 4d 61 78 4a 75 6d 70 2c 20 6e 44  pl, nMaxJump, nD
3e30: 69 73 74 2b 31 2c 20 6e 44 65 65 70 2b 31 2c 20  ist+1, nDeep+1, 
3e40: 69 41 64 64 72 2c 20 73 4e 65 77 57 6f 72 64 2c  iAddr, sNewWord,
3e50: 20 54 72 75 65 29 0a 20 20 20 20 20 20 20 20 20   True).         
3e60: 20 20 20 20 20 20 20 20 20 20 20 23 20 64 65 6c             # del
3e70: 65 74 65 20 63 68 61 72 0a 20 20 20 20 20 20 20  ete char.       
3e80: 20 20 20 20 20 20 20 20 20 20 20 20 20 69 66 20               if 
3e90: 6e 4d 61 78 44 65 6c 20 61 6e 64 20 73 65 6c 66  nMaxDel and self
3ea0: 2e 69 73 4e 67 72 61 6d 73 4f 4b 28 73 4e 65 77  .isNgramsOK(sNew
3eb0: 57 6f 72 64 5b 2d 31 3a 5d 2b 73 52 65 6d 61 69  Word[-1:]+sRemai
3ec0: 6e 5b 31 3a 32 5d 29 3a 0a 20 20 20 20 20 20 20  n[1:2]):.       
3ed0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3ee0: 20 73 65 6c 66 2e 5f 73 75 67 67 65 73 74 28 6f   self._suggest(o
3ef0: 53 75 67 67 52 65 73 75 6c 74 2c 20 73 52 65 6d  SuggResult, sRem
3f00: 61 69 6e 5b 31 3a 5d 2c 20 6e 4d 61 78 53 77 69  ain[1:], nMaxSwi
3f10: 74 63 68 2c 20 6e 4d 61 78 44 65 6c 2d 31 2c 20  tch, nMaxDel-1, 
3f20: 6e 4d 61 78 48 61 72 64 52 65 70 6c 2c 20 6e 4d  nMaxHardRepl, nM
3f30: 61 78 4a 75 6d 70 2c 20 6e 44 69 73 74 2b 31 2c  axJump, nDist+1,
3f40: 20 6e 44 65 65 70 2b 31 2c 20 69 41 64 64 72 2c   nDeep+1, iAddr,
3f50: 20 73 4e 65 77 57 6f 72 64 2c 20 54 72 75 65 29   sNewWord, True)
3f60: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
3f70: 20 23 20 50 68 6f 6e 65 74 69 63 20 72 65 70 6c   # Phonetic repl
3f80: 61 63 65 6d 65 6e 74 73 0a 20 20 20 20 20 20 20  acements.       
3f90: 20 20 20 20 20 20 20 20 20 66 6f 72 20 73 52 65           for sRe
3fa0: 70 6c 20 69 6e 20 63 70 2e 67 65 74 31 74 6f 58  pl in cp.get1toX
3fb0: 52 65 70 6c 61 63 65 6d 65 6e 74 28 73 4e 65 77  Replacement(sNew
3fc0: 57 6f 72 64 5b 2d 31 3a 5d 2c 20 63 43 75 72 72  Word[-1:], cCurr
3fd0: 65 6e 74 2c 20 73 52 65 6d 61 69 6e 5b 31 3a 32  ent, sRemain[1:2
3fe0: 5d 29 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  ]):.            
3ff0: 20 20 20 20 20 20 20 20 73 65 6c 66 2e 5f 73 75          self._su
4000: 67 67 65 73 74 28 6f 53 75 67 67 52 65 73 75 6c  ggest(oSuggResul
4010: 74 2c 20 73 52 65 70 6c 20 2b 20 73 52 65 6d 61  t, sRepl + sRema
4020: 69 6e 5b 31 3a 5d 2c 20 6e 4d 61 78 53 77 69 74  in[1:], nMaxSwit
4030: 63 68 2c 20 6e 4d 61 78 44 65 6c 2c 20 6e 4d 61  ch, nMaxDel, nMa
4040: 78 48 61 72 64 52 65 70 6c 2c 20 6e 4d 61 78 4a  xHardRepl, nMaxJ
4050: 75 6d 70 2c 20 6e 44 69 73 74 2c 20 6e 44 65 65  ump, nDist, nDee
4060: 70 2b 31 2c 20 69 41 64 64 72 2c 20 73 4e 65 77  p+1, iAddr, sNew
4070: 57 6f 72 64 2c 20 54 72 75 65 29 0a 20 20 20 20  Word, True).    
4080: 20 20 20 20 20 20 20 20 20 20 20 20 66 6f 72 20              for 
4090: 73 52 65 70 6c 20 69 6e 20 63 70 2e 64 32 74 6f  sRepl in cp.d2to
40a0: 58 2e 67 65 74 28 73 52 65 6d 61 69 6e 5b 30 3a  X.get(sRemain[0:
40b0: 32 5d 2c 20 28 29 29 3a 0a 20 20 20 20 20 20 20  2], ()):.       
40c0: 20 20 20 20 20 20 20 20 20 20 20 20 20 73 65 6c               sel
40d0: 66 2e 5f 73 75 67 67 65 73 74 28 6f 53 75 67 67  f._suggest(oSugg
40e0: 52 65 73 75 6c 74 2c 20 73 52 65 70 6c 20 2b 20  Result, sRepl + 
40f0: 73 52 65 6d 61 69 6e 5b 32 3a 5d 2c 20 6e 4d 61  sRemain[2:], nMa
4100: 78 53 77 69 74 63 68 2c 20 6e 4d 61 78 44 65 6c  xSwitch, nMaxDel
4110: 2c 20 6e 4d 61 78 48 61 72 64 52 65 70 6c 2c 20  , nMaxHardRepl, 
4120: 6e 4d 61 78 4a 75 6d 70 2c 20 6e 44 69 73 74 2c  nMaxJump, nDist,
4130: 20 6e 44 65 65 70 2b 31 2c 20 69 41 64 64 72 2c   nDeep+1, iAddr,
4140: 20 73 4e 65 77 57 6f 72 64 2c 20 54 72 75 65 29   sNewWord, True)
4150: 0a 20 20 20 20 20 20 20 20 20 20 20 20 23 20 65  .            # e
4160: 6e 64 20 6f 66 20 77 6f 72 64 0a 20 20 20 20 20  nd of word.     
4170: 20 20 20 20 20 20 20 69 66 20 6c 65 6e 28 73 52         if len(sR
4180: 65 6d 61 69 6e 29 20 3d 3d 20 32 3a 0a 20 20 20  emain) == 2:.   
4190: 20 20 20 20 20 20 20 20 20 20 20 20 20 66 6f 72               for
41a0: 20 73 52 65 70 6c 20 69 6e 20 63 70 2e 64 46 69   sRepl in cp.dFi
41b0: 6e 61 6c 32 2e 67 65 74 28 73 52 65 6d 61 69 6e  nal2.get(sRemain
41c0: 2c 20 28 29 29 3a 0a 20 20 20 20 20 20 20 20 20  , ()):.         
41d0: 20 20 20 20 20 20 20 20 20 20 20 73 65 6c 66 2e             self.
41e0: 5f 73 75 67 67 65 73 74 28 6f 53 75 67 67 52 65  _suggest(oSuggRe
41f0: 73 75 6c 74 2c 20 73 52 65 70 6c 2c 20 6e 4d 61  sult, sRepl, nMa
4200: 78 53 77 69 74 63 68 2c 20 6e 4d 61 78 44 65 6c  xSwitch, nMaxDel
4210: 2c 20 6e 4d 61 78 48 61 72 64 52 65 70 6c 2c 20  , nMaxHardRepl, 
4220: 6e 4d 61 78 4a 75 6d 70 2c 20 6e 44 69 73 74 2c  nMaxJump, nDist,
4230: 20 6e 44 65 65 70 2b 31 2c 20 69 41 64 64 72 2c   nDeep+1, iAddr,
4240: 20 73 4e 65 77 57 6f 72 64 2c 20 54 72 75 65 29   sNewWord, True)
4250: 0a 20 20 20 20 20 20 20 20 20 20 20 20 65 6c 69  .            eli
4260: 66 20 6c 65 6e 28 73 52 65 6d 61 69 6e 29 20 3d  f len(sRemain) =
4270: 3d 20 31 3a 0a 20 20 20 20 20 20 20 20 20 20 20  = 1:.           
4280: 20 20 20 20 20 73 65 6c 66 2e 5f 73 75 67 67 65       self._sugge
4290: 73 74 28 6f 53 75 67 67 52 65 73 75 6c 74 2c 20  st(oSuggResult, 
42a0: 22 22 2c 20 6e 4d 61 78 53 77 69 74 63 68 2c 20  "", nMaxSwitch, 
42b0: 6e 4d 61 78 44 65 6c 2c 20 6e 4d 61 78 48 61 72  nMaxDel, nMaxHar
42c0: 64 52 65 70 6c 2c 20 6e 4d 61 78 4a 75 6d 70 2c  dRepl, nMaxJump,
42d0: 20 6e 44 69 73 74 2c 20 6e 44 65 65 70 2b 31 2c   nDist, nDeep+1,
42e0: 20 69 41 64 64 72 2c 20 73 4e 65 77 57 6f 72 64   iAddr, sNewWord
42f0: 2c 20 54 72 75 65 29 20 23 20 72 65 6d 6f 76 65  , True) # remove
4300: 20 6c 61 73 74 20 63 68 61 72 20 61 6e 64 20 67   last char and g
4310: 6f 20 6f 6e 0a 20 20 20 20 20 20 20 20 20 20 20  o on.           
4320: 20 20 20 20 20 66 6f 72 20 73 52 65 70 6c 20 69       for sRepl i
4330: 6e 20 63 70 2e 64 46 69 6e 61 6c 31 2e 67 65 74  n cp.dFinal1.get
4340: 28 73 52 65 6d 61 69 6e 2c 20 28 29 29 3a 0a 20  (sRemain, ()):. 
4350: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
4360: 20 20 20 73 65 6c 66 2e 5f 73 75 67 67 65 73 74     self._suggest
4370: 28 6f 53 75 67 67 52 65 73 75 6c 74 2c 20 73 52  (oSuggResult, sR
4380: 65 70 6c 2c 20 6e 4d 61 78 53 77 69 74 63 68 2c  epl, nMaxSwitch,
4390: 20 6e 4d 61 78 44 65 6c 2c 20 6e 4d 61 78 48 61   nMaxDel, nMaxHa
43a0: 72 64 52 65 70 6c 2c 20 6e 4d 61 78 4a 75 6d 70  rdRepl, nMaxJump
43b0: 2c 20 6e 44 69 73 74 2c 20 6e 44 65 65 70 2b 31  , nDist, nDeep+1
43c0: 2c 20 69 41 64 64 72 2c 20 73 4e 65 77 57 6f 72  , iAddr, sNewWor
43d0: 64 2c 20 54 72 75 65 29 0a 0a 20 20 20 20 64 65  d, True)..    de
43e0: 66 20 69 73 4e 67 72 61 6d 73 4f 4b 20 28 73 65  f isNgramsOK (se
43f0: 6c 66 2c 20 73 43 68 61 72 73 29 3a 0a 20 20 20  lf, sChars):.   
4400: 20 20 20 20 20 22 72 65 74 75 72 6e 73 20 54 72       "returns Tr
4410: 75 65 20 69 66 20 73 43 68 61 72 73 20 69 6e 20  ue if sChars in 
4420: 6b 6e 6f 77 6e 20 32 67 72 61 6d 73 22 0a 20 20  known 2grams".  
4430: 20 20 20 20 20 20 69 66 20 6c 65 6e 28 73 43 68        if len(sCh
4440: 61 72 73 29 20 21 3d 20 32 3a 0a 20 20 20 20 20  ars) != 2:.     
4450: 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 54 72         return Tr
4460: 75 65 0a 20 20 20 20 20 20 20 20 69 66 20 6e 6f  ue.        if no
4470: 74 20 73 65 6c 66 2e 61 32 67 72 61 6d 73 3a 0a  t self.a2grams:.
4480: 20 20 20 20 20 20 20 20 20 20 20 20 72 65 74 75              retu
4490: 72 6e 20 54 72 75 65 0a 20 20 20 20 20 20 20 20  rn True.        
44a0: 72 65 74 75 72 6e 20 73 43 68 61 72 73 20 69 6e  return sChars in
44b0: 20 73 65 6c 66 2e 61 32 67 72 61 6d 73 0a 0a 20   self.a2grams.. 
44c0: 20 20 20 23 40 74 69 6d 65 74 68 69 73 0a 20 20     #@timethis.  
44d0: 20 20 64 65 66 20 73 75 67 67 65 73 74 32 20 28    def suggest2 (
44e0: 73 65 6c 66 2c 20 73 57 6f 72 64 2c 20 6e 53 75  self, sWord, nSu
44f0: 67 67 4c 69 6d 69 74 3d 31 30 29 3a 0a 20 20 20  ggLimit=10):.   
4500: 20 20 20 20 20 22 72 65 74 75 72 6e 73 20 61 20       "returns a 
4510: 73 65 74 20 6f 66 20 73 75 67 67 65 73 74 69 6f  set of suggestio
4520: 6e 73 20 66 6f 72 20 3c 73 57 6f 72 64 3e 22 0a  ns for <sWord>".
4530: 20 20 20 20 20 20 20 20 73 57 6f 72 64 20 3d 20          sWord = 
4540: 63 70 2e 73 70 65 6c 6c 69 6e 67 4e 6f 72 6d 61  cp.spellingNorma
4550: 6c 69 7a 61 74 69 6f 6e 28 73 57 6f 72 64 29 0a  lization(sWord).
4560: 20 20 20 20 20 20 20 20 73 50 66 78 2c 20 73 57          sPfx, sW
4570: 6f 72 64 2c 20 73 53 66 78 20 3d 20 63 70 2e 63  ord, sSfx = cp.c
4580: 75 74 28 73 57 6f 72 64 29 0a 20 20 20 20 20 20  ut(sWord).      
4590: 20 20 6f 53 75 67 67 52 65 73 75 6c 74 20 3d 20    oSuggResult = 
45a0: 53 75 67 67 52 65 73 75 6c 74 28 73 57 6f 72 64  SuggResult(sWord
45b0: 29 0a 20 20 20 20 20 20 20 20 73 65 6c 66 2e 5f  ).        self._
45c0: 73 75 67 67 65 73 74 32 28 6f 53 75 67 67 52 65  suggest2(oSuggRe
45d0: 73 75 6c 74 29 0a 20 20 20 20 20 20 20 20 61 53  sult).        aS
45e0: 75 67 67 20 3d 20 6f 53 75 67 67 52 65 73 75 6c  ugg = oSuggResul
45f0: 74 2e 67 65 74 53 75 67 67 65 73 74 69 6f 6e 73  t.getSuggestions
4600: 28 6e 53 75 67 67 4c 69 6d 69 74 29 0a 20 20 20  (nSuggLimit).   
4610: 20 20 20 20 20 69 66 20 73 53 66 78 20 6f 72 20       if sSfx or 
4620: 73 50 66 78 3a 0a 20 20 20 20 20 20 20 20 20 20  sPfx:.          
4630: 20 20 23 20 77 65 20 61 64 64 20 77 68 61 74 20    # we add what 
4640: 77 65 20 72 65 6d 6f 76 65 64 0a 20 20 20 20 20  we removed.     
4650: 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 6c 69         return li
4660: 73 74 28 6d 61 70 28 6c 61 6d 62 64 61 20 73 53  st(map(lambda sS
4670: 75 67 3a 20 73 50 66 78 20 2b 20 73 53 75 67 20  ug: sPfx + sSug 
4680: 2b 20 73 53 66 78 2c 20 61 53 75 67 67 29 29 0a  + sSfx, aSugg)).
4690: 20 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 61          return a
46a0: 53 75 67 67 0a 0a 20 20 20 20 64 65 66 20 5f 73  Sugg..    def _s
46b0: 75 67 67 65 73 74 32 20 28 73 65 6c 66 2c 20 6f  uggest2 (self, o
46c0: 53 75 67 67 52 65 73 75 6c 74 2c 20 6e 44 65 65  SuggResult, nDee
46d0: 70 3d 30 2c 20 69 41 64 64 72 3d 30 2c 20 73 4e  p=0, iAddr=0, sN
46e0: 65 77 57 6f 72 64 3d 22 22 29 3a 0a 20 20 20 20  ewWord=""):.    
46f0: 20 20 20 20 23 20 72 65 63 75 72 73 69 76 65 20      # recursive 
4700: 66 75 6e 63 74 69 6f 6e 0a 20 20 20 20 20 20 20  function.       
4710: 20 23 6c 6f 67 67 69 6e 67 2e 69 6e 66 6f 28 28   #logging.info((
4720: 6e 44 65 65 70 20 2a 20 22 20 20 22 29 20 2b 20  nDeep * "  ") + 
4730: 73 4e 65 77 57 6f 72 64 29 0a 20 20 20 20 20 20  sNewWord).      
4740: 20 20 69 66 20 6e 44 65 65 70 20 3e 3d 20 6f 53    if nDeep >= oS
4750: 75 67 67 52 65 73 75 6c 74 2e 6e 44 69 73 74 4c  uggResult.nDistL
4760: 69 6d 69 74 3a 0a 20 20 20 20 20 20 20 20 20 20  imit:.          
4770: 20 20 73 43 6c 65 61 6e 4e 65 77 57 6f 72 64 20    sCleanNewWord 
4780: 3d 20 63 70 2e 73 69 6d 70 6c 69 66 79 57 6f 72  = cp.simplifyWor
4790: 64 28 73 4e 65 77 57 6f 72 64 29 0a 20 20 20 20  d(sNewWord).    
47a0: 20 20 20 20 20 20 20 20 69 66 20 73 74 2e 64 69          if st.di
47b0: 73 74 61 6e 63 65 53 69 66 74 34 28 6f 53 75 67  stanceSift4(oSug
47c0: 67 52 65 73 75 6c 74 2e 73 43 6c 65 61 6e 57 6f  gResult.sCleanWo
47d0: 72 64 5b 3a 6c 65 6e 28 73 43 6c 65 61 6e 4e 65  rd[:len(sCleanNe
47e0: 77 57 6f 72 64 29 5d 2c 20 73 43 6c 65 61 6e 4e  wWord)], sCleanN
47f0: 65 77 57 6f 72 64 29 20 3e 20 6f 53 75 67 67 52  ewWord) > oSuggR
4800: 65 73 75 6c 74 2e 6e 44 69 73 74 4c 69 6d 69 74  esult.nDistLimit
4810: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  :.              
4820: 20 20 72 65 74 75 72 6e 0a 20 20 20 20 20 20 20    return.       
4830: 20 69 66 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74   if int.from_byt
4840: 65 73 28 73 65 6c 66 2e 62 79 44 69 63 5b 69 41  es(self.byDic[iA
4850: 64 64 72 3a 69 41 64 64 72 2b 73 65 6c 66 2e 6e  ddr:iAddr+self.n
4860: 42 79 74 65 73 41 72 63 5d 2c 20 62 79 74 65 6f  BytesArc], byteo
4870: 72 64 65 72 3d 27 62 69 67 27 29 20 26 20 73 65  rder='big') & se
4880: 6c 66 2e 5f 66 69 6e 61 6c 4e 6f 64 65 4d 61 73  lf._finalNodeMas
4890: 6b 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 6f  k:.            o
48a0: 53 75 67 67 52 65 73 75 6c 74 2e 61 64 64 53 75  SuggResult.addSu
48b0: 67 67 28 73 4e 65 77 57 6f 72 64 2c 20 6e 44 65  gg(sNewWord, nDe
48c0: 65 70 29 0a 20 20 20 20 20 20 20 20 66 6f 72 20  ep).        for 
48d0: 63 43 68 61 72 2c 20 6a 41 64 64 72 20 69 6e 20  cChar, jAddr in 
48e0: 73 65 6c 66 2e 5f 67 65 74 43 68 61 72 41 72 63  self._getCharArc
48f0: 73 57 69 74 68 50 72 69 6f 72 69 74 79 28 69 41  sWithPriority(iA
4900: 64 64 72 2c 20 6f 53 75 67 67 52 65 73 75 6c 74  ddr, oSuggResult
4910: 2e 73 57 6f 72 64 5b 6e 44 65 65 70 3a 6e 44 65  .sWord[nDeep:nDe
4920: 65 70 2b 31 5d 29 3a 0a 20 20 20 20 20 20 20 20  ep+1]):.        
4930: 20 20 20 20 73 65 6c 66 2e 5f 73 75 67 67 65 73      self._sugges
4940: 74 32 28 6f 53 75 67 67 52 65 73 75 6c 74 2c 20  t2(oSuggResult, 
4950: 6e 44 65 65 70 2b 31 2c 20 6a 41 64 64 72 2c 20  nDeep+1, jAddr, 
4960: 73 4e 65 77 57 6f 72 64 2b 63 43 68 61 72 29 0a  sNewWord+cChar).
4970: 20 20 20 20 20 20 20 20 72 65 74 75 72 6e 0a 0a          return..
4980: 20 20 20 20 64 65 66 20 5f 67 65 74 43 68 61 72      def _getChar
4990: 41 72 63 73 20 28 73 65 6c 66 2c 20 69 41 64 64  Arcs (self, iAdd
49a0: 72 29 3a 0a 20 20 20 20 20 20 20 20 22 67 65 6e  r):.        "gen
49b0: 65 72 61 74 6f 72 3a 20 79 69 65 6c 64 20 61 6c  erator: yield al
49c0: 6c 20 63 68 61 72 73 20 61 6e 64 20 61 64 64 72  l chars and addr
49d0: 65 73 73 65 73 20 66 72 6f 6d 20 6e 6f 64 65 20  esses from node 
49e0: 61 74 20 61 64 64 72 65 73 73 20 3c 69 41 64 64  at address <iAdd
49f0: 72 3e 22 0a 20 20 20 20 20 20 20 20 66 6f 72 20  r>".        for 
4a00: 6e 56 61 6c 2c 20 6a 41 64 64 72 20 69 6e 20 73  nVal, jAddr in s
4a10: 65 6c 66 2e 5f 67 65 74 41 72 63 73 28 69 41 64  elf._getArcs(iAd
4a20: 64 72 29 3a 0a 20 20 20 20 20 20 20 20 20 20 20  dr):.           
4a30: 20 69 66 20 6e 56 61 6c 20 3c 3d 20 73 65 6c 66   if nVal <= self
4a40: 2e 6e 43 68 61 72 3a 0a 20 20 20 20 20 20 20 20  .nChar:.        
4a50: 20 20 20 20 20 20 20 20 79 69 65 6c 64 20 28 73          yield (s
4a60: 65 6c 66 2e 64 43 68 61 72 56 61 6c 5b 6e 56 61  elf.dCharVal[nVa
4a70: 6c 5d 2c 20 6a 41 64 64 72 29 0a 0a 20 20 20 20  l], jAddr)..    
4a80: 64 65 66 20 5f 67 65 74 53 69 6d 69 6c 61 72 43  def _getSimilarC
4a90: 68 61 72 41 72 63 73 20 28 73 65 6c 66 2c 20 63  harArcs (self, c
4aa0: 43 68 61 72 2c 20 69 41 64 64 72 29 3a 0a 20 20  Char, iAddr):.  
4ab0: 20 20 20 20 20 20 22 67 65 6e 65 72 61 74 6f 72        "generator
4ac0: 3a 20 79 69 65 6c 64 20 73 69 6d 69 6c 61 72 20  : yield similar 
4ad0: 63 68 61 72 20 6f 66 20 3c 63 43 68 61 72 3e 20  char of <cChar> 
4ae0: 61 6e 64 20 61 64 64 72 65 73 73 20 6f 66 20 74  and address of t
4af0: 68 65 20 66 6f 6c 6c 6f 77 69 6e 67 20 6e 6f 64  he following nod
4b00: 65 22 0a 20 20 20 20 20 20 20 20 66 6f 72 20 63  e".        for c
4b10: 20 69 6e 20 63 70 2e 64 31 74 6f 31 2e 67 65 74   in cp.d1to1.get
4b20: 28 63 43 68 61 72 2c 20 5b 63 43 68 61 72 5d 29  (cChar, [cChar])
4b30: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 69 66  :.            if
4b40: 20 63 20 69 6e 20 73 65 6c 66 2e 64 43 68 61 72   c in self.dChar
4b50: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  :.              
4b60: 20 20 6a 41 64 64 72 20 3d 20 73 65 6c 66 2e 5f    jAddr = self._
4b70: 6c 6f 6f 6b 75 70 41 72 63 4e 6f 64 65 28 73 65  lookupArcNode(se
4b80: 6c 66 2e 64 43 68 61 72 5b 63 5d 2c 20 69 41 64  lf.dChar[c], iAd
4b90: 64 72 29 0a 20 20 20 20 20 20 20 20 20 20 20 20  dr).            
4ba0: 20 20 20 20 69 66 20 6a 41 64 64 72 3a 0a 20 20      if jAddr:.  
4bb0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
4bc0: 20 20 79 69 65 6c 64 20 28 63 2c 20 6a 41 64 64    yield (c, jAdd
4bd0: 72 29 0a 0a 20 20 20 20 64 65 66 20 5f 67 65 74  r)..    def _get
4be0: 43 68 61 72 41 72 63 73 57 69 74 68 50 72 69 6f  CharArcsWithPrio
4bf0: 72 69 74 79 20 28 73 65 6c 66 2c 20 69 41 64 64  rity (self, iAdd
4c00: 72 2c 20 63 43 68 61 72 29 3a 0a 20 20 20 20 20  r, cChar):.     
4c10: 20 20 20 69 66 20 6e 6f 74 20 63 43 68 61 72 3a     if not cChar:
4c20: 0a 20 20 20 20 20 20 20 20 20 20 20 20 79 69 65  .            yie
4c30: 6c 64 20 66 72 6f 6d 20 73 65 6c 66 2e 5f 67 65  ld from self._ge
4c40: 74 43 68 61 72 41 72 63 73 28 69 41 64 64 72 29  tCharArcs(iAddr)
4c50: 0a 20 20 20 20 20 20 20 20 6c 54 75 70 6c 65 20  .        lTuple 
4c60: 3d 20 6c 69 73 74 28 73 65 6c 66 2e 5f 67 65 74  = list(self._get
4c70: 43 68 61 72 41 72 63 73 28 69 41 64 64 72 29 29  CharArcs(iAddr))
4c80: 0a 20 20 20 20 20 20 20 20 6c 54 75 70 6c 65 2e  .        lTuple.
4c90: 73 6f 72 74 28 6b 65 79 3d 6c 61 6d 62 64 61 20  sort(key=lambda 
4ca0: 74 3a 20 30 20 20 69 66 20 74 5b 30 5d 20 69 6e  t: 0  if t[0] in
4cb0: 20 63 70 2e 64 31 74 6f 31 2e 67 65 74 28 63 43   cp.d1to1.get(cC
4cc0: 68 61 72 2c 20 63 43 68 61 72 29 20 20 65 6c 73  har, cChar)  els
4cd0: 65 20 20 31 29 0a 20 20 20 20 20 20 20 20 79 69  e  1).        yi
4ce0: 65 6c 64 20 66 72 6f 6d 20 6c 54 75 70 6c 65 0a  eld from lTuple.
4cf0: 0a 20 20 20 20 64 65 66 20 5f 67 65 74 54 61 69  .    def _getTai
4d00: 6c 73 20 28 73 65 6c 66 2c 20 69 41 64 64 72 2c  ls (self, iAddr,
4d10: 20 73 54 61 69 6c 3d 22 22 2c 20 6e 3d 32 29 3a   sTail="", n=2):
4d20: 0a 20 20 20 20 20 20 20 20 22 72 65 74 75 72 6e  .        "return
4d30: 20 61 20 6c 69 73 74 20 6f 66 20 73 75 66 66 69   a list of suffi
4d40: 78 65 73 20 65 6e 64 69 6e 67 20 61 74 20 61 20  xes ending at a 
4d50: 64 69 73 74 61 6e 63 65 20 6f 66 20 3c 6e 3e 20  distance of <n> 
4d60: 66 72 6f 6d 20 3c 69 41 64 64 72 3e 22 0a 20 20  from <iAddr>".  
4d70: 20 20 20 20 20 20 61 54 61 69 6c 73 20 3d 20 73        aTails = s
4d80: 65 74 28 29 0a 20 20 20 20 20 20 20 20 66 6f 72  et().        for
4d90: 20 6e 56 61 6c 2c 20 6a 41 64 64 72 20 69 6e 20   nVal, jAddr in 
4da0: 73 65 6c 66 2e 5f 67 65 74 41 72 63 73 28 69 41  self._getArcs(iA
4db0: 64 64 72 29 3a 0a 20 20 20 20 20 20 20 20 20 20  ddr):.          
4dc0: 20 20 69 66 20 6e 56 61 6c 20 3c 3d 20 73 65 6c    if nVal <= sel
4dd0: 66 2e 6e 43 68 61 72 3a 0a 20 20 20 20 20 20 20  f.nChar:.       
4de0: 20 20 20 20 20 20 20 20 20 69 66 20 69 6e 74 2e           if int.
4df0: 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e  from_bytes(self.
4e00: 62 79 44 69 63 5b 6a 41 64 64 72 3a 6a 41 64 64  byDic[jAddr:jAdd
4e10: 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73 41 72 63  r+self.nBytesArc
4e20: 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d 27 62 69  ], byteorder='bi
4e30: 67 27 29 20 26 20 73 65 6c 66 2e 5f 66 69 6e 61  g') & self._fina
4e40: 6c 4e 6f 64 65 4d 61 73 6b 3a 0a 20 20 20 20 20  lNodeMask:.     
4e50: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 61                 a
4e60: 54 61 69 6c 73 2e 61 64 64 28 73 54 61 69 6c 20  Tails.add(sTail 
4e70: 2b 20 73 65 6c 66 2e 64 43 68 61 72 56 61 6c 5b  + self.dCharVal[
4e80: 6e 56 61 6c 5d 29 0a 20 20 20 20 20 20 20 20 20  nVal]).         
4e90: 20 20 20 20 20 20 20 69 66 20 6e 20 61 6e 64 20         if n and 
4ea0: 6e 6f 74 20 61 54 61 69 6c 73 3a 0a 20 20 20 20  not aTails:.    
4eb0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
4ec0: 61 54 61 69 6c 73 2e 75 70 64 61 74 65 28 73 65  aTails.update(se
4ed0: 6c 66 2e 5f 67 65 74 54 61 69 6c 73 28 6a 41 64  lf._getTails(jAd
4ee0: 64 72 2c 20 73 54 61 69 6c 2b 73 65 6c 66 2e 64  dr, sTail+self.d
4ef0: 43 68 61 72 56 61 6c 5b 6e 56 61 6c 5d 2c 20 6e  CharVal[nVal], n
4f00: 2d 31 29 29 0a 20 20 20 20 20 20 20 20 72 65 74  -1)).        ret
4f10: 75 72 6e 20 61 54 61 69 6c 73 0a 0a 20 20 20 20  urn aTails..    
4f20: 64 65 66 20 64 72 61 77 50 61 74 68 20 28 73 65  def drawPath (se
4f30: 6c 66 2c 20 73 57 6f 72 64 2c 20 69 41 64 64 72  lf, sWord, iAddr
4f40: 3d 30 29 3a 0a 20 20 20 20 20 20 20 20 22 73 68  =0):.        "sh
4f50: 6f 77 20 74 68 65 20 70 61 74 68 20 74 61 6b 65  ow the path take
4f60: 6e 20 62 79 20 3c 73 57 6f 72 64 3e 20 69 6e 20  n by <sWord> in 
4f70: 74 68 65 20 67 72 61 70 68 22 0a 20 20 20 20 20  the graph".     
4f80: 20 20 20 73 57 6f 72 64 20 3d 20 63 70 2e 73 70     sWord = cp.sp
4f90: 65 6c 6c 69 6e 67 4e 6f 72 6d 61 6c 69 7a 61 74  ellingNormalizat
4fa0: 69 6f 6e 28 73 57 6f 72 64 29 0a 20 20 20 20 20  ion(sWord).     
4fb0: 20 20 20 63 31 20 3d 20 73 57 6f 72 64 5b 30 3a     c1 = sWord[0:
4fc0: 31 5d 20 20 69 66 20 73 57 6f 72 64 20 20 65 6c  1]  if sWord  el
4fd0: 73 65 20 22 20 22 0a 20 20 20 20 20 20 20 20 69  se " ".        i
4fe0: 50 6f 73 20 3d 20 2d 31 0a 20 20 20 20 20 20 20  Pos = -1.       
4ff0: 20 6e 20 3d 20 30 0a 20 20 20 20 20 20 20 20 65   n = 0.        e
5000: 63 68 6f 28 63 31 20 2b 20 22 3a 20 22 2c 20 65  cho(c1 + ": ", e
5010: 6e 64 3d 22 22 29 0a 20 20 20 20 20 20 20 20 66  nd="").        f
5020: 6f 72 20 63 32 2c 20 6a 41 64 64 72 20 69 6e 20  or c2, jAddr in 
5030: 73 65 6c 66 2e 5f 67 65 74 43 68 61 72 41 72 63  self._getCharArc
5040: 73 28 69 41 64 64 72 29 3a 0a 20 20 20 20 20 20  s(iAddr):.      
5050: 20 20 20 20 20 20 65 63 68 6f 28 63 32 2c 20 65        echo(c2, e
5060: 6e 64 3d 22 22 29 0a 20 20 20 20 20 20 20 20 20  nd="").         
5070: 20 20 20 69 66 20 63 32 20 3d 3d 20 73 57 6f 72     if c2 == sWor
5080: 64 5b 30 3a 31 5d 3a 0a 20 20 20 20 20 20 20 20  d[0:1]:.        
5090: 20 20 20 20 20 20 20 20 69 4e 65 78 74 4e 6f 64          iNextNod
50a0: 65 41 64 64 72 20 3d 20 6a 41 64 64 72 0a 20 20  eAddr = jAddr.  
50b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 69 50                iP
50c0: 6f 73 20 3d 20 6e 0a 20 20 20 20 20 20 20 20 20  os = n.         
50d0: 20 20 20 6e 20 2b 3d 20 31 0a 20 20 20 20 20 20     n += 1.      
50e0: 20 20 69 66 20 6e 6f 74 20 73 57 6f 72 64 3a 0a    if not sWord:.
50f0: 20 20 20 20 20 20 20 20 20 20 20 20 72 65 74 75              retu
5100: 72 6e 0a 20 20 20 20 20 20 20 20 69 66 20 69 50  rn.        if iP
5110: 6f 73 20 3e 3d 20 30 3a 0a 20 20 20 20 20 20 20  os >= 0:.       
5120: 20 20 20 20 20 65 63 68 6f 28 22 5c 6e 20 20 20       echo("\n   
5130: 22 20 2b 20 22 20 22 20 2a 20 69 50 6f 73 20 2b  " + " " * iPos +
5140: 20 22 7c 22 29 0a 20 20 20 20 20 20 20 20 20 20   "|").          
5150: 20 20 73 65 6c 66 2e 64 72 61 77 50 61 74 68 28    self.drawPath(
5160: 73 57 6f 72 64 5b 31 3a 5d 2c 20 69 4e 65 78 74  sWord[1:], iNext
5170: 4e 6f 64 65 41 64 64 72 29 0a 0a 20 20 20 20 64  NodeAddr)..    d
5180: 65 66 20 67 65 74 53 69 6d 69 6c 61 72 45 6e 74  ef getSimilarEnt
5190: 72 69 65 73 20 28 73 65 6c 66 2c 20 73 57 6f 72  ries (self, sWor
51a0: 64 2c 20 6e 53 75 67 67 4c 69 6d 69 74 3d 31 30  d, nSuggLimit=10
51b0: 29 3a 0a 20 20 20 20 20 20 20 20 22 72 65 74 75  ):.        "retu
51c0: 72 6e 20 61 20 6c 69 73 74 20 6f 66 20 74 75 70  rn a list of tup
51d0: 6c 65 73 20 28 73 69 6d 69 6c 61 72 20 77 6f 72  les (similar wor
51e0: 64 2c 20 73 74 65 6d 2c 20 6d 6f 72 70 68 6f 6c  d, stem, morphol
51f0: 6f 67 79 29 22 0a 20 20 20 20 20 20 20 20 69 66  ogy)".        if
5200: 20 6e 6f 74 20 73 57 6f 72 64 3a 0a 20 20 20 20   not sWord:.    
5210: 20 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 5b          return [
5220: 5d 0a 20 20 20 20 20 20 20 20 6c 52 65 73 75 6c  ].        lResul
5230: 74 20 3d 20 5b 5d 0a 20 20 20 20 20 20 20 20 66  t = [].        f
5240: 6f 72 20 73 53 69 6d 69 6c 61 72 20 69 6e 20 73  or sSimilar in s
5250: 65 6c 66 2e 73 75 67 67 65 73 74 28 73 57 6f 72  elf.suggest(sWor
5260: 64 2c 20 6e 53 75 67 67 4c 69 6d 69 74 29 3a 0a  d, nSuggLimit):.
5270: 20 20 20 20 20 20 20 20 20 20 20 20 66 6f 72 20              for 
5280: 73 4d 6f 72 70 68 20 69 6e 20 73 65 6c 66 2e 67  sMorph in self.g
5290: 65 74 4d 6f 72 70 68 28 73 53 69 6d 69 6c 61 72  etMorph(sSimilar
52a0: 29 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  ):.             
52b0: 20 20 20 6e 43 75 74 20 3d 20 73 4d 6f 72 70 68     nCut = sMorph
52c0: 2e 66 69 6e 64 28 22 2f 22 29 0a 20 20 20 20 20  .find("/").     
52d0: 20 20 20 20 20 20 20 20 20 20 20 6c 52 65 73 75             lResu
52e0: 6c 74 2e 61 70 70 65 6e 64 28 20 28 73 53 69 6d  lt.append( (sSim
52f0: 69 6c 61 72 2c 20 73 4d 6f 72 70 68 5b 31 3a 6e  ilar, sMorph[1:n
5300: 43 75 74 5d 2c 20 73 4d 6f 72 70 68 5b 6e 43 75  Cut], sMorph[nCu
5310: 74 2b 31 3a 5d 29 20 29 0a 20 20 20 20 20 20 20  t+1:]) ).       
5320: 20 72 65 74 75 72 6e 20 6c 52 65 73 75 6c 74 0a   return lResult.
5330: 0a 20 20 20 20 64 65 66 20 73 65 6c 65 63 74 20  .    def select 
5340: 28 73 65 6c 66 2c 20 73 46 6c 65 78 50 61 74 74  (self, sFlexPatt
5350: 65 72 6e 3d 22 22 2c 20 73 54 61 67 73 50 61 74  ern="", sTagsPat
5360: 74 65 72 6e 3d 22 22 29 3a 0a 20 20 20 20 20 20  tern=""):.      
5370: 20 20 22 67 65 6e 65 72 61 74 6f 72 3a 20 72 65    "generator: re
5380: 74 75 72 6e 73 20 61 6c 6c 20 65 6e 74 72 69 65  turns all entrie
5390: 73 20 77 68 69 63 68 20 66 6c 65 78 69 6f 6e 20  s which flexion 
53a0: 66 69 74 73 20 3c 73 46 6c 65 78 50 61 74 74 65  fits <sFlexPatte
53b0: 72 6e 3e 20 61 6e 64 20 6d 6f 72 70 68 6f 6c 6f  rn> and morpholo
53c0: 67 79 20 66 69 74 73 20 3c 73 54 61 67 73 50 61  gy fits <sTagsPa
53d0: 74 74 65 72 6e 3e 22 0a 20 20 20 20 20 20 20 20  ttern>".        
53e0: 7a 46 6c 65 78 50 61 74 74 65 72 6e 20 3d 20 4e  zFlexPattern = N
53f0: 6f 6e 65 0a 20 20 20 20 20 20 20 20 7a 54 61 67  one.        zTag
5400: 73 50 61 74 74 65 72 6e 20 3d 20 4e 6f 6e 65 0a  sPattern = None.
5410: 20 20 20 20 20 20 20 20 74 72 79 3a 0a 20 20 20          try:.   
5420: 20 20 20 20 20 20 20 20 20 69 66 20 73 46 6c 65           if sFle
5430: 78 50 61 74 74 65 72 6e 3a 0a 20 20 20 20 20 20  xPattern:.      
5440: 20 20 20 20 20 20 20 20 20 20 7a 46 6c 65 78 50            zFlexP
5450: 61 74 74 65 72 6e 20 3d 20 72 65 2e 63 6f 6d 70  attern = re.comp
5460: 69 6c 65 28 73 46 6c 65 78 50 61 74 74 65 72 6e  ile(sFlexPattern
5470: 29 0a 20 20 20 20 20 20 20 20 20 20 20 20 69 66  ).            if
5480: 20 73 54 61 67 73 50 61 74 74 65 72 6e 3a 0a 20   sTagsPattern:. 
5490: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 7a                 z
54a0: 54 61 67 73 50 61 74 74 65 72 6e 20 3d 20 72 65  TagsPattern = re
54b0: 2e 63 6f 6d 70 69 6c 65 28 73 54 61 67 73 50 61  .compile(sTagsPa
54c0: 74 74 65 72 6e 29 0a 20 20 20 20 20 20 20 20 65  ttern).        e
54d0: 78 63 65 70 74 20 72 65 2e 65 72 72 6f 72 3a 0a  xcept re.error:.
54e0: 20 20 20 20 20 20 20 20 20 20 20 20 70 72 69 6e              prin
54f0: 74 28 22 23 20 45 72 72 6f 72 20 69 6e 20 72 65  t("# Error in re
5500: 67 65 78 20 70 61 74 74 65 72 6e 22 29 0a 20 20  gex pattern").  
5510: 20 20 20 20 20 20 20 20 20 20 74 72 61 63 65 62            traceb
5520: 61 63 6b 2e 70 72 69 6e 74 5f 65 78 63 28 29 0a  ack.print_exc().
5530: 20 20 20 20 20 20 20 20 79 69 65 6c 64 20 66 72          yield fr
5540: 6f 6d 20 73 65 6c 66 2e 5f 73 65 6c 65 63 74 31  om self._select1
5550: 28 7a 46 6c 65 78 50 61 74 74 65 72 6e 2c 20 7a  (zFlexPattern, z
5560: 54 61 67 73 50 61 74 74 65 72 6e 2c 20 30 2c 20  TagsPattern, 0, 
5570: 22 22 29 0a 0a 20 20 20 20 23 20 64 65 66 20 6d  "")..    # def m
5580: 6f 72 70 68 20 28 73 65 6c 66 2c 20 73 57 6f 72  orph (self, sWor
5590: 64 29 3a 0a 20 20 20 20 23 20 20 20 20 20 69 73  d):.    #     is
55a0: 20 64 65 66 69 6e 65 64 20 69 6e 20 5f 5f 69 6e   defined in __in
55b0: 69 74 5f 5f 0a 0a 20 20 20 20 23 20 56 45 52 53  it__..    # VERS
55c0: 49 4f 4e 20 31 0a 20 20 20 20 64 65 66 20 5f 73  ION 1.    def _s
55d0: 65 6c 65 63 74 31 20 28 73 65 6c 66 2c 20 7a 46  elect1 (self, zF
55e0: 6c 65 78 50 61 74 74 65 72 6e 2c 20 7a 54 61 67  lexPattern, zTag
55f0: 73 50 61 74 74 65 72 6e 2c 20 69 41 64 64 72 2c  sPattern, iAddr,
5600: 20 73 57 6f 72 64 29 3a 0a 20 20 20 20 20 20 20   sWord):.       
5610: 20 23 20 72 65 63 75 72 73 69 76 65 20 67 65 6e   # recursive gen
5620: 65 72 61 74 6f 72 0a 20 20 20 20 20 20 20 20 66  erator.        f
5630: 6f 72 20 6e 56 61 6c 2c 20 6a 41 64 64 72 20 69  or nVal, jAddr i
5640: 6e 20 73 65 6c 66 2e 5f 67 65 74 41 72 63 73 31  n self._getArcs1
5650: 28 69 41 64 64 72 29 3a 0a 20 20 20 20 20 20 20  (iAddr):.       
5660: 20 20 20 20 20 69 66 20 6e 56 61 6c 20 3c 3d 20       if nVal <= 
5670: 73 65 6c 66 2e 6e 43 68 61 72 3a 0a 20 20 20 20  self.nChar:.    
5680: 20 20 20 20 20 20 20 20 20 20 20 20 23 20 73 69              # si
5690: 6d 70 6c 65 20 63 68 61 72 61 63 74 65 72 0a 20  mple character. 
56a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 79                 y
56b0: 69 65 6c 64 20 66 72 6f 6d 20 73 65 6c 66 2e 5f  ield from self._
56c0: 73 65 6c 65 63 74 31 28 7a 46 6c 65 78 50 61 74  select1(zFlexPat
56d0: 74 65 72 6e 2c 20 7a 54 61 67 73 50 61 74 74 65  tern, zTagsPatte
56e0: 72 6e 2c 20 6a 41 64 64 72 2c 20 73 57 6f 72 64  rn, jAddr, sWord
56f0: 20 2b 20 73 65 6c 66 2e 6c 41 72 63 56 61 6c 5b   + self.lArcVal[
5700: 6e 56 61 6c 5d 29 0a 20 20 20 20 20 20 20 20 20  nVal]).         
5710: 20 20 20 65 6c 73 65 3a 0a 20 20 20 20 20 20 20     else:.       
5720: 20 20 20 20 20 20 20 20 20 69 66 20 6e 6f 74 20           if not 
5730: 7a 46 6c 65 78 50 61 74 74 65 72 6e 20 6f 72 20  zFlexPattern or 
5740: 7a 46 6c 65 78 50 61 74 74 65 72 6e 2e 73 65 61  zFlexPattern.sea
5750: 72 63 68 28 73 57 6f 72 64 29 3a 0a 20 20 20 20  rch(sWord):.    
5760: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
5770: 73 53 74 65 6d 20 3d 20 73 65 6c 66 2e 66 75 6e  sStem = self.fun
5780: 63 53 74 65 6d 6d 69 6e 67 28 73 57 6f 72 64 2c  cStemming(sWord,
5790: 20 73 65 6c 66 2e 6c 41 72 63 56 61 6c 5b 6e 56   self.lArcVal[nV
57a0: 61 6c 5d 29 0a 20 20 20 20 20 20 20 20 20 20 20  al]).           
57b0: 20 20 20 20 20 20 20 20 20 66 6f 72 20 6e 4d 6f           for nMo
57c0: 72 70 68 56 61 6c 2c 20 5f 20 69 6e 20 73 65 6c  rphVal, _ in sel
57d0: 66 2e 5f 67 65 74 41 72 63 73 31 28 6a 41 64 64  f._getArcs1(jAdd
57e0: 72 29 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  r):.            
57f0: 20 20 20 20 20 20 20 20 20 20 20 20 69 66 20 6e              if n
5800: 6f 74 20 7a 54 61 67 73 50 61 74 74 65 72 6e 20  ot zTagsPattern 
5810: 6f 72 20 7a 54 61 67 73 50 61 74 74 65 72 6e 2e  or zTagsPattern.
5820: 73 65 61 72 63 68 28 73 65 6c 66 2e 6c 41 72 63  search(self.lArc
5830: 56 61 6c 5b 6e 4d 6f 72 70 68 56 61 6c 5d 29 3a  Val[nMorphVal]):
5840: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
5850: 20 20 20 20 20 20 20 20 20 20 20 20 20 79 69 65               yie
5860: 6c 64 20 5b 73 57 6f 72 64 2c 20 73 53 74 65 6d  ld [sWord, sStem
5870: 2c 20 73 65 6c 66 2e 6c 41 72 63 56 61 6c 5b 6e  , self.lArcVal[n
5880: 4d 6f 72 70 68 56 61 6c 5d 5d 0a 0a 20 20 20 20  MorphVal]]..    
5890: 64 65 66 20 5f 6d 6f 72 70 68 31 20 28 73 65 6c  def _morph1 (sel
58a0: 66 2c 20 73 57 6f 72 64 29 3a 0a 20 20 20 20 20  f, sWord):.     
58b0: 20 20 20 22 72 65 74 75 72 6e 73 20 6d 6f 72 70     "returns morp
58c0: 68 6f 6c 6f 67 69 65 73 20 6f 66 20 3c 73 57 6f  hologies of <sWo
58d0: 72 64 3e 22 0a 20 20 20 20 20 20 20 20 69 41 64  rd>".        iAd
58e0: 64 72 20 3d 20 30 0a 20 20 20 20 20 20 20 20 66  dr = 0.        f
58f0: 6f 72 20 63 20 69 6e 20 73 57 6f 72 64 3a 0a 20  or c in sWord:. 
5900: 20 20 20 20 20 20 20 20 20 20 20 69 66 20 63 20             if c 
5910: 6e 6f 74 20 69 6e 20 73 65 6c 66 2e 64 43 68 61  not in self.dCha
5920: 72 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  r:.             
5930: 20 20 20 72 65 74 75 72 6e 20 5b 5d 0a 20 20 20     return [].   
5940: 20 20 20 20 20 20 20 20 20 69 41 64 64 72 20 3d           iAddr =
5950: 20 73 65 6c 66 2e 5f 6c 6f 6f 6b 75 70 41 72 63   self._lookupArc
5960: 4e 6f 64 65 28 73 65 6c 66 2e 64 43 68 61 72 5b  Node(self.dChar[
5970: 63 5d 2c 20 69 41 64 64 72 29 0a 20 20 20 20 20  c], iAddr).     
5980: 20 20 20 20 20 20 20 69 66 20 69 41 64 64 72 20         if iAddr 
5990: 69 73 20 4e 6f 6e 65 3a 0a 20 20 20 20 20 20 20  is None:.       
59a0: 20 20 20 20 20 20 20 20 20 72 65 74 75 72 6e 20           return 
59b0: 5b 5d 0a 20 20 20 20 20 20 20 20 69 66 20 69 6e  [].        if in
59c0: 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c  t.from_bytes(sel
59d0: 66 2e 62 79 44 69 63 5b 69 41 64 64 72 3a 69 41  f.byDic[iAddr:iA
59e0: 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73 41  ddr+self.nBytesA
59f0: 72 63 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d 27  rc], byteorder='
5a00: 62 69 67 27 29 20 26 20 73 65 6c 66 2e 5f 66 69  big') & self._fi
5a10: 6e 61 6c 4e 6f 64 65 4d 61 73 6b 3a 0a 20 20 20  nalNodeMask:.   
5a20: 20 20 20 20 20 20 20 20 20 6c 20 3d 20 5b 5d 0a           l = [].
5a30: 20 20 20 20 20 20 20 20 20 20 20 20 6e 52 61 77              nRaw
5a40: 41 72 63 20 3d 20 30 0a 20 20 20 20 20 20 20 20  Arc = 0.        
5a50: 20 20 20 20 77 68 69 6c 65 20 6e 6f 74 20 6e 52      while not nR
5a60: 61 77 41 72 63 20 26 20 73 65 6c 66 2e 5f 6c 61  awArc & self._la
5a70: 73 74 41 72 63 4d 61 73 6b 3a 0a 20 20 20 20 20  stArcMask:.     
5a80: 20 20 20 20 20 20 20 20 20 20 20 69 45 6e 64 41             iEndA
5a90: 72 63 41 64 64 72 20 3d 20 69 41 64 64 72 20 2b  rcAddr = iAddr +
5aa0: 20 73 65 6c 66 2e 6e 42 79 74 65 73 41 72 63 0a   self.nBytesArc.
5ab0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
5ac0: 6e 52 61 77 41 72 63 20 3d 20 69 6e 74 2e 66 72  nRawArc = int.fr
5ad0: 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e 62 79  om_bytes(self.by
5ae0: 44 69 63 5b 69 41 64 64 72 3a 69 45 6e 64 41 72  Dic[iAddr:iEndAr
5af0: 63 41 64 64 72 5d 2c 20 62 79 74 65 6f 72 64 65  cAddr], byteorde
5b00: 72 3d 27 62 69 67 27 29 0a 20 20 20 20 20 20 20  r='big').       
5b10: 20 20 20 20 20 20 20 20 20 6e 41 72 63 20 3d 20           nArc = 
5b20: 6e 52 61 77 41 72 63 20 26 20 73 65 6c 66 2e 5f  nRawArc & self._
5b30: 61 72 63 4d 61 73 6b 0a 20 20 20 20 20 20 20 20  arcMask.        
5b40: 20 20 20 20 20 20 20 20 69 66 20 6e 41 72 63 20          if nArc 
5b50: 3e 20 73 65 6c 66 2e 6e 43 68 61 72 3a 0a 20 20  > self.nChar:.  
5b60: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
5b70: 20 20 23 20 54 68 69 73 20 76 61 6c 75 65 20 69    # This value i
5b80: 73 20 6e 6f 74 20 61 20 63 68 61 72 2c 20 74 68  s not a char, th
5b90: 69 73 20 69 73 20 61 20 73 74 65 6d 6d 69 6e 67  is is a stemming
5ba0: 20 63 6f 64 65 0a 20 20 20 20 20 20 20 20 20 20   code.          
5bb0: 20 20 20 20 20 20 20 20 20 20 73 53 74 65 6d 20            sStem 
5bc0: 3d 20 22 3e 22 20 2b 20 73 65 6c 66 2e 66 75 6e  = ">" + self.fun
5bd0: 63 53 74 65 6d 6d 69 6e 67 28 73 57 6f 72 64 2c  cStemming(sWord,
5be0: 20 73 65 6c 66 2e 6c 41 72 63 56 61 6c 5b 6e 41   self.lArcVal[nA
5bf0: 72 63 5d 29 0a 20 20 20 20 20 20 20 20 20 20 20  rc]).           
5c00: 20 20 20 20 20 20 20 20 20 23 20 4e 6f 77 20 2c           # Now ,
5c10: 20 77 65 20 67 6f 20 74 6f 20 74 68 65 20 6e 65   we go to the ne
5c20: 78 74 20 6e 6f 64 65 20 61 6e 64 20 72 65 74 72  xt node and retr
5c30: 69 65 76 65 20 61 6c 6c 20 66 6f 6c 6c 6f 77 69  ieve all followi
5c40: 6e 67 20 61 72 63 73 20 76 61 6c 75 65 73 2c 20  ng arcs values, 
5c50: 61 6c 6c 20 6f 66 20 74 68 65 6d 20 61 72 65 20  all of them are 
5c60: 74 61 67 73 0a 20 20 20 20 20 20 20 20 20 20 20  tags.           
5c70: 20 20 20 20 20 20 20 20 20 69 41 64 64 72 32 20           iAddr2 
5c80: 3d 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73  = int.from_bytes
5c90: 28 73 65 6c 66 2e 62 79 44 69 63 5b 69 45 6e 64  (self.byDic[iEnd
5ca0: 41 72 63 41 64 64 72 3a 69 45 6e 64 41 72 63 41  ArcAddr:iEndArcA
5cb0: 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73 4e  ddr+self.nBytesN
5cc0: 6f 64 65 41 64 64 72 65 73 73 5d 2c 20 62 79 74  odeAddress], byt
5cd0: 65 6f 72 64 65 72 3d 27 62 69 67 27 29 0a 20 20  eorder='big').  
5ce0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
5cf0: 20 20 6e 52 61 77 41 72 63 32 20 3d 20 30 0a 20    nRawArc2 = 0. 
5d00: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
5d10: 20 20 20 77 68 69 6c 65 20 6e 6f 74 20 6e 52 61     while not nRa
5d20: 77 41 72 63 32 20 26 20 73 65 6c 66 2e 5f 6c 61  wArc2 & self._la
5d30: 73 74 41 72 63 4d 61 73 6b 3a 0a 20 20 20 20 20  stArcMask:.     
5d40: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
5d50: 20 20 20 69 45 6e 64 41 72 63 41 64 64 72 32 20     iEndArcAddr2 
5d60: 3d 20 69 41 64 64 72 32 20 2b 20 73 65 6c 66 2e  = iAddr2 + self.
5d70: 6e 42 79 74 65 73 41 72 63 0a 20 20 20 20 20 20  nBytesArc.      
5d80: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
5d90: 20 20 6e 52 61 77 41 72 63 32 20 3d 20 69 6e 74    nRawArc2 = int
5da0: 2e 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66  .from_bytes(self
5db0: 2e 62 79 44 69 63 5b 69 41 64 64 72 32 3a 69 45  .byDic[iAddr2:iE
5dc0: 6e 64 41 72 63 41 64 64 72 32 5d 2c 20 62 79 74  ndArcAddr2], byt
5dd0: 65 6f 72 64 65 72 3d 27 62 69 67 27 29 0a 20 20  eorder='big').  
5de0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
5df0: 20 20 20 20 20 20 6c 2e 61 70 70 65 6e 64 28 73        l.append(s
5e00: 53 74 65 6d 20 2b 20 22 2f 22 20 2b 20 73 65 6c  Stem + "/" + sel
5e10: 66 2e 6c 41 72 63 56 61 6c 5b 6e 52 61 77 41 72  f.lArcVal[nRawAr
5e20: 63 32 20 26 20 73 65 6c 66 2e 5f 61 72 63 4d 61  c2 & self._arcMa
5e30: 73 6b 5d 29 0a 20 20 20 20 20 20 20 20 20 20 20  sk]).           
5e40: 20 20 20 20 20 20 20 20 20 20 20 20 20 69 41 64               iAd
5e50: 64 72 32 20 3d 20 69 45 6e 64 41 72 63 41 64 64  dr2 = iEndArcAdd
5e60: 72 32 2b 73 65 6c 66 2e 6e 42 79 74 65 73 4e 6f  r2+self.nBytesNo
5e70: 64 65 41 64 64 72 65 73 73 0a 20 20 20 20 20 20  deAddress.      
5e80: 20 20 20 20 20 20 20 20 20 20 69 41 64 64 72 20            iAddr 
5e90: 3d 20 69 45 6e 64 41 72 63 41 64 64 72 2b 73 65  = iEndArcAddr+se
5ea0: 6c 66 2e 6e 42 79 74 65 73 4e 6f 64 65 41 64 64  lf.nBytesNodeAdd
5eb0: 72 65 73 73 0a 20 20 20 20 20 20 20 20 20 20 20  ress.           
5ec0: 20 72 65 74 75 72 6e 20 6c 0a 20 20 20 20 20 20   return l.      
5ed0: 20 20 72 65 74 75 72 6e 20 5b 5d 0a 0a 20 20 20    return []..   
5ee0: 20 64 65 66 20 5f 73 74 65 6d 31 20 28 73 65 6c   def _stem1 (sel
5ef0: 66 2c 20 73 57 6f 72 64 29 3a 0a 20 20 20 20 20  f, sWord):.     
5f00: 20 20 20 22 72 65 74 75 72 6e 73 20 73 74 65 6d     "returns stem
5f10: 73 20 6c 69 73 74 20 6f 66 20 3c 73 57 6f 72 64  s list of <sWord
5f20: 3e 22 0a 20 20 20 20 20 20 20 20 69 41 64 64 72  >".        iAddr
5f30: 20 3d 20 30 0a 20 20 20 20 20 20 20 20 66 6f 72   = 0.        for
5f40: 20 63 20 69 6e 20 73 57 6f 72 64 3a 0a 20 20 20   c in sWord:.   
5f50: 20 20 20 20 20 20 20 20 20 69 66 20 63 20 6e 6f           if c no
5f60: 74 20 69 6e 20 73 65 6c 66 2e 64 43 68 61 72 3a  t in self.dChar:
5f70: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
5f80: 20 72 65 74 75 72 6e 20 5b 5d 0a 20 20 20 20 20   return [].     
5f90: 20 20 20 20 20 20 20 69 41 64 64 72 20 3d 20 73         iAddr = s
5fa0: 65 6c 66 2e 5f 6c 6f 6f 6b 75 70 41 72 63 4e 6f  elf._lookupArcNo
5fb0: 64 65 28 73 65 6c 66 2e 64 43 68 61 72 5b 63 5d  de(self.dChar[c]
5fc0: 2c 20 69 41 64 64 72 29 0a 20 20 20 20 20 20 20  , iAddr).       
5fd0: 20 20 20 20 20 69 66 20 69 41 64 64 72 20 69 73       if iAddr is
5fe0: 20 4e 6f 6e 65 3a 0a 20 20 20 20 20 20 20 20 20   None:.         
5ff0: 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 5b 5d         return []
6000: 0a 20 20 20 20 20 20 20 20 69 66 20 69 6e 74 2e  .        if int.
6010: 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e  from_bytes(self.
6020: 62 79 44 69 63 5b 69 41 64 64 72 3a 69 41 64 64  byDic[iAddr:iAdd
6030: 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73 41 72 63  r+self.nBytesArc
6040: 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d 27 62 69  ], byteorder='bi
6050: 67 27 29 20 26 20 73 65 6c 66 2e 5f 66 69 6e 61  g') & self._fina
6060: 6c 4e 6f 64 65 4d 61 73 6b 3a 0a 20 20 20 20 20  lNodeMask:.     
6070: 20 20 20 20 20 20 20 6c 20 3d 20 5b 5d 0a 20 20         l = [].  
6080: 20 20 20 20 20 20 20 20 20 20 6e 52 61 77 41 72            nRawAr
6090: 63 20 3d 20 30 0a 20 20 20 20 20 20 20 20 20 20  c = 0.          
60a0: 20 20 77 68 69 6c 65 20 6e 6f 74 20 6e 52 61 77    while not nRaw
60b0: 41 72 63 20 26 20 73 65 6c 66 2e 5f 6c 61 73 74  Arc & self._last
60c0: 41 72 63 4d 61 73 6b 3a 0a 20 20 20 20 20 20 20  ArcMask:.       
60d0: 20 20 20 20 20 20 20 20 20 69 45 6e 64 41 72 63           iEndArc
60e0: 41 64 64 72 20 3d 20 69 41 64 64 72 20 2b 20 73  Addr = iAddr + s
60f0: 65 6c 66 2e 6e 42 79 74 65 73 41 72 63 0a 20 20  elf.nBytesArc.  
6100: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 6e 52                nR
6110: 61 77 41 72 63 20 3d 20 69 6e 74 2e 66 72 6f 6d  awArc = int.from
6120: 5f 62 79 74 65 73 28 73 65 6c 66 2e 62 79 44 69  _bytes(self.byDi
6130: 63 5b 69 41 64 64 72 3a 69 45 6e 64 41 72 63 41  c[iAddr:iEndArcA
6140: 64 64 72 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d  ddr], byteorder=
6150: 27 62 69 67 27 29 0a 20 20 20 20 20 20 20 20 20  'big').         
6160: 20 20 20 20 20 20 20 6e 41 72 63 20 3d 20 6e 52         nArc = nR
6170: 61 77 41 72 63 20 26 20 73 65 6c 66 2e 5f 61 72  awArc & self._ar
6180: 63 4d 61 73 6b 0a 20 20 20 20 20 20 20 20 20 20  cMask.          
6190: 20 20 20 20 20 20 69 66 20 6e 41 72 63 20 3e 20        if nArc > 
61a0: 73 65 6c 66 2e 6e 43 68 61 72 3a 0a 20 20 20 20  self.nChar:.    
61b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
61c0: 23 20 54 68 69 73 20 76 61 6c 75 65 20 69 73 20  # This value is 
61d0: 6e 6f 74 20 61 20 63 68 61 72 2c 20 74 68 69 73  not a char, this
61e0: 20 69 73 20 61 20 73 74 65 6d 6d 69 6e 67 20 63   is a stemming c
61f0: 6f 64 65 0a 20 20 20 20 20 20 20 20 20 20 20 20  ode.            
6200: 20 20 20 20 20 20 20 20 6c 2e 61 70 70 65 6e 64          l.append
6210: 28 73 65 6c 66 2e 66 75 6e 63 53 74 65 6d 6d 69  (self.funcStemmi
6220: 6e 67 28 73 57 6f 72 64 2c 20 73 65 6c 66 2e 6c  ng(sWord, self.l
6230: 41 72 63 56 61 6c 5b 6e 41 72 63 5d 29 29 0a 20  ArcVal[nArc])). 
6240: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 69                 i
6250: 41 64 64 72 20 3d 20 69 45 6e 64 41 72 63 41 64  Addr = iEndArcAd
6260: 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73 4e 6f  dr+self.nBytesNo
6270: 64 65 41 64 64 72 65 73 73 0a 20 20 20 20 20 20  deAddress.      
6280: 20 20 20 20 20 20 72 65 74 75 72 6e 20 6c 0a 20        return l. 
6290: 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 5b 5d         return []
62a0: 0a 0a 20 20 20 20 64 65 66 20 5f 6c 6f 6f 6b 75  ..    def _looku
62b0: 70 41 72 63 4e 6f 64 65 31 20 28 73 65 6c 66 2c  pArcNode1 (self,
62c0: 20 6e 56 61 6c 2c 20 69 41 64 64 72 29 3a 0a 20   nVal, iAddr):. 
62d0: 20 20 20 20 20 20 20 22 6c 6f 6f 6b 73 20 69 66         "looks if
62e0: 20 3c 6e 56 61 6c 3e 20 69 73 20 61 6e 20 61 72   <nVal> is an ar
62f0: 63 20 61 74 20 74 68 65 20 6e 6f 64 65 20 61 74  c at the node at
6300: 20 3c 69 41 64 64 72 3e 2c 20 69 66 20 79 65 73   <iAddr>, if yes
6310: 2c 20 72 65 74 75 72 6e 73 20 61 64 64 72 65 73  , returns addres
6320: 73 20 6f 66 20 6e 65 78 74 20 6e 6f 64 65 20 65  s of next node e
6330: 6c 73 65 20 4e 6f 6e 65 22 0a 20 20 20 20 20 20  lse None".      
6340: 20 20 77 68 69 6c 65 20 54 72 75 65 3a 0a 20 20    while True:.  
6350: 20 20 20 20 20 20 20 20 20 20 69 45 6e 64 41 72            iEndAr
6360: 63 41 64 64 72 20 3d 20 69 41 64 64 72 2b 73 65  cAddr = iAddr+se
6370: 6c 66 2e 6e 42 79 74 65 73 41 72 63 0a 20 20 20  lf.nBytesArc.   
6380: 20 20 20 20 20 20 20 20 20 6e 52 61 77 41 72 63           nRawArc
6390: 20 3d 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65   = int.from_byte
63a0: 73 28 73 65 6c 66 2e 62 79 44 69 63 5b 69 41 64  s(self.byDic[iAd
63b0: 64 72 3a 69 45 6e 64 41 72 63 41 64 64 72 5d 2c  dr:iEndArcAddr],
63c0: 20 62 79 74 65 6f 72 64 65 72 3d 27 62 69 67 27   byteorder='big'
63d0: 29 0a 20 20 20 20 20 20 20 20 20 20 20 20 69 66  ).            if
63e0: 20 6e 56 61 6c 20 3d 3d 20 28 6e 52 61 77 41 72   nVal == (nRawAr
63f0: 63 20 26 20 73 65 6c 66 2e 5f 61 72 63 4d 61 73  c & self._arcMas
6400: 6b 29 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  k):.            
6410: 20 20 20 20 23 20 74 68 65 20 76 61 6c 75 65 20      # the value 
6420: 77 65 20 61 72 65 20 6c 6f 6f 6b 69 6e 67 20 66  we are looking f
6430: 6f 72 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  or.             
6440: 20 20 20 23 20 77 65 20 72 65 74 75 72 6e 20 74     # we return t
6450: 68 65 20 61 64 64 72 65 73 73 20 6f 66 20 74 68  he address of th
6460: 65 20 6e 65 78 74 20 6e 6f 64 65 0a 20 20 20 20  e next node.    
6470: 20 20 20 20 20 20 20 20 20 20 20 20 72 65 74 75              retu
6480: 72 6e 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65  rn int.from_byte
6490: 73 28 73 65 6c 66 2e 62 79 44 69 63 5b 69 45 6e  s(self.byDic[iEn
64a0: 64 41 72 63 41 64 64 72 3a 69 45 6e 64 41 72 63  dArcAddr:iEndArc
64b0: 41 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73  Addr+self.nBytes
64c0: 4e 6f 64 65 41 64 64 72 65 73 73 5d 2c 20 62 79  NodeAddress], by
64d0: 74 65 6f 72 64 65 72 3d 27 62 69 67 27 29 0a 20  teorder='big'). 
64e0: 20 20 20 20 20 20 20 20 20 20 20 23 20 76 61 6c             # val
64f0: 75 65 20 6e 6f 74 20 66 6f 75 6e 64 0a 20 20 20  ue not found.   
6500: 20 20 20 20 20 20 20 20 20 69 66 20 6e 52 61 77           if nRaw
6510: 41 72 63 20 26 20 73 65 6c 66 2e 5f 6c 61 73 74  Arc & self._last
6520: 41 72 63 4d 61 73 6b 3a 0a 20 20 20 20 20 20 20  ArcMask:.       
6530: 20 20 20 20 20 20 20 20 20 72 65 74 75 72 6e 20           return 
6540: 4e 6f 6e 65 0a 20 20 20 20 20 20 20 20 20 20 20  None.           
6550: 20 69 41 64 64 72 20 3d 20 69 45 6e 64 41 72 63   iAddr = iEndArc
6560: 41 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73  Addr+self.nBytes
6570: 4e 6f 64 65 41 64 64 72 65 73 73 0a 0a 20 20 20  NodeAddress..   
6580: 20 64 65 66 20 5f 67 65 74 41 72 63 73 31 20 28   def _getArcs1 (
6590: 73 65 6c 66 2c 20 69 41 64 64 72 29 3a 0a 20 20  self, iAddr):.  
65a0: 20 20 20 20 20 20 22 67 65 6e 65 72 61 74 6f 72        "generator
65b0: 3a 20 72 65 74 75 72 6e 20 61 6c 6c 20 61 72 63  : return all arc
65c0: 73 20 61 74 20 3c 69 41 64 64 72 3e 20 61 73 20  s at <iAddr> as 
65d0: 74 75 70 6c 65 73 20 6f 66 20 28 6e 56 61 6c 2c  tuples of (nVal,
65e0: 20 69 41 64 64 72 29 22 0a 20 20 20 20 20 20 20   iAddr)".       
65f0: 20 77 68 69 6c 65 20 54 72 75 65 3a 0a 20 20 20   while True:.   
6600: 20 20 20 20 20 20 20 20 20 69 45 6e 64 41 72 63           iEndArc
6610: 41 64 64 72 20 3d 20 69 41 64 64 72 2b 73 65 6c  Addr = iAddr+sel
6620: 66 2e 6e 42 79 74 65 73 41 72 63 0a 20 20 20 20  f.nBytesArc.    
6630: 20 20 20 20 20 20 20 20 6e 52 61 77 41 72 63 20          nRawArc 
6640: 3d 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73  = int.from_bytes
6650: 28 73 65 6c 66 2e 62 79 44 69 63 5b 69 41 64 64  (self.byDic[iAdd
6660: 72 3a 69 45 6e 64 41 72 63 41 64 64 72 5d 2c 20  r:iEndArcAddr], 
6670: 62 79 74 65 6f 72 64 65 72 3d 27 62 69 67 27 29  byteorder='big')
6680: 0a 20 20 20 20 20 20 20 20 20 20 20 20 79 69 65  .            yie
6690: 6c 64 20 6e 52 61 77 41 72 63 20 26 20 73 65 6c  ld nRawArc & sel
66a0: 66 2e 5f 61 72 63 4d 61 73 6b 2c 20 69 6e 74 2e  f._arcMask, int.
66b0: 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e  from_bytes(self.
66c0: 62 79 44 69 63 5b 69 45 6e 64 41 72 63 41 64 64  byDic[iEndArcAdd
66d0: 72 3a 69 45 6e 64 41 72 63 41 64 64 72 2b 73 65  r:iEndArcAddr+se
66e0: 6c 66 2e 6e 42 79 74 65 73 4e 6f 64 65 41 64 64  lf.nBytesNodeAdd
66f0: 72 65 73 73 5d 2c 20 62 79 74 65 6f 72 64 65 72  ress], byteorder
6700: 3d 27 62 69 67 27 29 0a 20 20 20 20 20 20 20 20  ='big').        
6710: 20 20 20 20 69 66 20 6e 52 61 77 41 72 63 20 26      if nRawArc &
6720: 20 73 65 6c 66 2e 5f 6c 61 73 74 41 72 63 4d 61   self._lastArcMa
6730: 73 6b 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  sk:.            
6740: 20 20 20 20 62 72 65 61 6b 0a 20 20 20 20 20 20      break.      
6750: 20 20 20 20 20 20 69 41 64 64 72 20 3d 20 69 45        iAddr = iE
6760: 6e 64 41 72 63 41 64 64 72 2b 73 65 6c 66 2e 6e  ndArcAddr+self.n
6770: 42 79 74 65 73 4e 6f 64 65 41 64 64 72 65 73 73  BytesNodeAddress
6780: 0a 0a 20 20 20 20 64 65 66 20 5f 77 72 69 74 65  ..    def _write
6790: 4e 6f 64 65 73 31 20 28 73 65 6c 66 2c 20 73 70  Nodes1 (self, sp
67a0: 66 44 65 73 74 29 3a 0a 20 20 20 20 20 20 20 20  fDest):.        
67b0: 22 66 6f 72 20 64 65 62 75 67 67 69 6e 67 20 6f  "for debugging o
67c0: 6e 6c 79 22 0a 20 20 20 20 20 20 20 20 70 72 69  nly".        pri
67d0: 6e 74 28 22 20 3e 20 57 72 69 74 65 20 62 69 6e  nt(" > Write bin
67e0: 61 72 79 20 6e 6f 64 65 73 22 29 0a 20 20 20 20  ary nodes").    
67f0: 20 20 20 20 77 69 74 68 20 6f 70 65 6e 28 73 70      with open(sp
6800: 66 44 65 73 74 2c 20 27 77 27 2c 20 27 75 74 66  fDest, 'w', 'utf
6810: 2d 38 27 2c 20 6e 65 77 6c 69 6e 65 3d 22 5c 6e  -8', newline="\n
6820: 22 29 20 61 73 20 68 44 73 74 3a 0a 20 20 20 20  ") as hDst:.    
6830: 20 20 20 20 20 20 20 20 69 41 64 64 72 20 3d 20          iAddr = 
6840: 30 0a 20 20 20 20 20 20 20 20 20 20 20 20 68 44  0.            hD
6850: 73 74 2e 77 72 69 74 65 28 22 69 7b 3a 5f 3e 31  st.write("i{:_>1
6860: 30 7d 20 2d 2d 20 23 7b 3a 5f 3e 31 30 7d 5c 6e  0} -- #{:_>10}\n
6870: 22 2e 66 6f 72 6d 61 74 28 22 30 22 2c 20 69 41  ".format("0", iA
6880: 64 64 72 29 29 0a 20 20 20 20 20 20 20 20 20 20  ddr)).          
6890: 20 20 77 68 69 6c 65 20 69 41 64 64 72 20 3c 20    while iAddr < 
68a0: 6c 65 6e 28 73 65 6c 66 2e 62 79 44 69 63 29 3a  len(self.byDic):
68b0: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
68c0: 20 69 45 6e 64 41 72 63 41 64 64 72 20 3d 20 69   iEndArcAddr = i
68d0: 41 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73  Addr+self.nBytes
68e0: 41 72 63 0a 20 20 20 20 20 20 20 20 20 20 20 20  Arc.            
68f0: 20 20 20 20 6e 52 61 77 41 72 63 20 3d 20 69 6e      nRawArc = in
6900: 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c  t.from_bytes(sel
6910: 66 2e 62 79 44 69 63 5b 69 41 64 64 72 3a 69 45  f.byDic[iAddr:iE
6920: 6e 64 41 72 63 41 64 64 72 5d 2c 20 62 79 74 65  ndArcAddr], byte
6930: 6f 72 64 65 72 3d 27 62 69 67 27 29 0a 20 20 20  order='big').   
6940: 20 20 20 20 20 20 20 20 20 20 20 20 20 6e 41 72               nAr
6950: 63 20 3d 20 6e 52 61 77 41 72 63 20 26 20 73 65  c = nRawArc & se
6960: 6c 66 2e 5f 61 72 63 4d 61 73 6b 0a 20 20 20 20  lf._arcMask.    
6970: 20 20 20 20 20 20 20 20 20 20 20 20 68 44 73 74              hDst
6980: 2e 77 72 69 74 65 28 22 20 20 7b 3a 3c 32 30 7d  .write("  {:<20}
6990: 20 20 7b 3a 30 3e 31 36 7d 20 20 69 7b 3a 3e 31    {:0>16}  i{:>1
69a0: 30 7d 20 20 20 23 7b 3a 5f 3e 31 30 7d 5c 6e 22  0}   #{:_>10}\n"
69b0: 2e 66 6f 72 6d 61 74 28 73 65 6c 66 2e 6c 41 72  .format(self.lAr
69c0: 63 56 61 6c 5b 6e 41 72 63 5d 2c 20 62 69 6e 28  cVal[nArc], bin(
69d0: 6e 52 61 77 41 72 63 29 5b 32 3a 5d 2c 20 22 3f  nRawArc)[2:], "?
69e0: 22 2c 20 5c 0a 20 20 20 20 20 20 20 20 20 20 20  ", \.           
69f0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
6a00: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
6a10: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
6a20: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
6a30: 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28   int.from_bytes(
6a40: 73 65 6c 66 2e 62 79 44 69 63 5b 69 45 6e 64 41  self.byDic[iEndA
6a50: 72 63 41 64 64 72 3a 69 45 6e 64 41 72 63 41 64  rcAddr:iEndArcAd
6a60: 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73 4e 6f  dr+self.nBytesNo
6a70: 64 65 41 64 64 72 65 73 73 5d 2c 20 5c 0a 20 20  deAddress], \.  
6a80: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
6a90: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
6aa0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
6ab0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
6ac0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
6ad0: 20 20 20 20 20 20 20 20 20 62 79 74 65 6f 72 64           byteord
6ae0: 65 72 3d 27 62 69 67 27 29 29 29 0a 20 20 20 20  er='big'))).    
6af0: 20 20 20 20 20 20 20 20 20 20 20 20 69 41 64 64              iAdd
6b00: 72 20 3d 20 69 45 6e 64 41 72 63 41 64 64 72 2b  r = iEndArcAddr+
6b10: 73 65 6c 66 2e 6e 42 79 74 65 73 4e 6f 64 65 41  self.nBytesNodeA
6b20: 64 64 72 65 73 73 0a 20 20 20 20 20 20 20 20 20  ddress.         
6b30: 20 20 20 20 20 20 20 69 66 20 28 6e 52 61 77 41         if (nRawA
6b40: 72 63 20 26 20 73 65 6c 66 2e 5f 6c 61 73 74 41  rc & self._lastA
6b50: 72 63 4d 61 73 6b 29 20 61 6e 64 20 69 41 64 64  rcMask) and iAdd
6b60: 72 20 3c 20 6c 65 6e 28 73 65 6c 66 2e 62 79 44  r < len(self.byD
6b70: 69 63 29 3a 0a 20 20 20 20 20 20 20 20 20 20 20  ic):.           
6b80: 20 20 20 20 20 20 20 20 20 68 44 73 74 2e 77 72           hDst.wr
6b90: 69 74 65 28 22 5c 6e 69 7b 3a 5f 3e 31 30 7d 20  ite("\ni{:_>10} 
6ba0: 2d 2d 20 23 7b 3a 5f 3e 31 30 7d 5c 6e 22 2e 66  -- #{:_>10}\n".f
6bb0: 6f 72 6d 61 74 28 22 3f 22 2c 20 69 41 64 64 72  ormat("?", iAddr
6bc0: 29 29 0a 20 20 20 20 20 20 20 20 20 20 20 20 68  )).            h
6bd0: 44 73 74 2e 63 6c 6f 73 65 28 29 0a 0a 20 20 20  Dst.close()..   
6be0: 20 23 20 56 45 52 53 49 4f 4e 20 32 0a 20 20 20   # VERSION 2.   
6bf0: 20 64 65 66 20 5f 6d 6f 72 70 68 32 20 28 73 65   def _morph2 (se
6c00: 6c 66 2c 20 73 57 6f 72 64 29 3a 0a 20 20 20 20  lf, sWord):.    
6c10: 20 20 20 20 22 72 65 74 75 72 6e 73 20 6d 6f 72      "returns mor
6c20: 70 68 6f 6c 6f 67 69 65 73 20 6f 66 20 3c 73 57  phologies of <sW
6c30: 6f 72 64 3e 22 0a 20 20 20 20 20 20 20 20 69 41  ord>".        iA
6c40: 64 64 72 20 3d 20 30 0a 20 20 20 20 20 20 20 20  ddr = 0.        
6c50: 66 6f 72 20 63 20 69 6e 20 73 57 6f 72 64 3a 0a  for c in sWord:.
6c60: 20 20 20 20 20 20 20 20 20 20 20 20 69 66 20 63              if c
6c70: 20 6e 6f 74 20 69 6e 20 73 65 6c 66 2e 64 43 68   not in self.dCh
6c80: 61 72 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  ar:.            
6c90: 20 20 20 20 72 65 74 75 72 6e 20 5b 5d 0a 20 20      return [].  
6ca0: 20 20 20 20 20 20 20 20 20 20 69 41 64 64 72 20            iAddr 
6cb0: 3d 20 73 65 6c 66 2e 5f 6c 6f 6f 6b 75 70 41 72  = self._lookupAr
6cc0: 63 4e 6f 64 65 28 73 65 6c 66 2e 64 43 68 61 72  cNode(self.dChar
6cd0: 5b 63 5d 2c 20 69 41 64 64 72 29 0a 20 20 20 20  [c], iAddr).    
6ce0: 20 20 20 20 20 20 20 20 69 66 20 69 41 64 64 72          if iAddr
6cf0: 20 69 73 20 4e 6f 6e 65 3a 0a 20 20 20 20 20 20   is None:.      
6d00: 20 20 20 20 20 20 20 20 20 20 72 65 74 75 72 6e            return
6d10: 20 5b 5d 0a 20 20 20 20 20 20 20 20 69 66 20 69   [].        if i
6d20: 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28 73 65  nt.from_bytes(se
6d30: 6c 66 2e 62 79 44 69 63 5b 69 41 64 64 72 3a 69  lf.byDic[iAddr:i
6d40: 41 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73  Addr+self.nBytes
6d50: 41 72 63 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d  Arc], byteorder=
6d60: 27 62 69 67 27 29 20 26 20 73 65 6c 66 2e 5f 66  'big') & self._f
6d70: 69 6e 61 6c 4e 6f 64 65 4d 61 73 6b 3a 0a 20 20  inalNodeMask:.  
6d80: 20 20 20 20 20 20 20 20 20 20 6c 20 3d 20 5b 5d            l = []
6d90: 0a 20 20 20 20 20 20 20 20 20 20 20 20 6e 52 61  .            nRa
6da0: 77 41 72 63 20 3d 20 30 0a 20 20 20 20 20 20 20  wArc = 0.       
6db0: 20 20 20 20 20 77 68 69 6c 65 20 6e 6f 74 20 6e       while not n
6dc0: 52 61 77 41 72 63 20 26 20 73 65 6c 66 2e 5f 6c  RawArc & self._l
6dd0: 61 73 74 41 72 63 4d 61 73 6b 3a 0a 20 20 20 20  astArcMask:.    
6de0: 20 20 20 20 20 20 20 20 20 20 20 20 69 45 6e 64              iEnd
6df0: 41 72 63 41 64 64 72 20 3d 20 69 41 64 64 72 20  ArcAddr = iAddr 
6e00: 2b 20 73 65 6c 66 2e 6e 42 79 74 65 73 41 72 63  + self.nBytesArc
6e10: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
6e20: 20 6e 52 61 77 41 72 63 20 3d 20 69 6e 74 2e 66   nRawArc = int.f
6e30: 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e 62  rom_bytes(self.b
6e40: 79 44 69 63 5b 69 41 64 64 72 3a 69 45 6e 64 41  yDic[iAddr:iEndA
6e50: 72 63 41 64 64 72 5d 2c 20 62 79 74 65 6f 72 64  rcAddr], byteord
6e60: 65 72 3d 27 62 69 67 27 29 0a 20 20 20 20 20 20  er='big').      
6e70: 20 20 20 20 20 20 20 20 20 20 6e 41 72 63 20 3d            nArc =
6e80: 20 6e 52 61 77 41 72 63 20 26 20 73 65 6c 66 2e   nRawArc & self.
6e90: 5f 61 72 63 4d 61 73 6b 0a 20 20 20 20 20 20 20  _arcMask.       
6ea0: 20 20 20 20 20 20 20 20 20 69 66 20 6e 41 72 63           if nArc
6eb0: 20 3e 20 73 65 6c 66 2e 6e 43 68 61 72 3a 0a 20   > self.nChar:. 
6ec0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
6ed0: 20 20 20 23 20 54 68 69 73 20 76 61 6c 75 65 20     # This value 
6ee0: 69 73 20 6e 6f 74 20 61 20 63 68 61 72 2c 20 74  is not a char, t
6ef0: 68 69 73 20 69 73 20 61 20 73 74 65 6d 6d 69 6e  his is a stemmin
6f00: 67 20 63 6f 64 65 0a 20 20 20 20 20 20 20 20 20  g code.         
6f10: 20 20 20 20 20 20 20 20 20 20 20 73 53 74 65 6d             sStem
6f20: 20 3d 20 22 3e 22 20 2b 20 73 65 6c 66 2e 66 75   = ">" + self.fu
6f30: 6e 63 53 74 65 6d 6d 69 6e 67 28 73 57 6f 72 64  ncStemming(sWord
6f40: 2c 20 73 65 6c 66 2e 6c 41 72 63 56 61 6c 5b 6e  , self.lArcVal[n
6f50: 41 72 63 5d 29 0a 20 20 20 20 20 20 20 20 20 20  Arc]).          
6f60: 20 20 20 20 20 20 20 20 20 20 23 20 4e 6f 77 20            # Now 
6f70: 2c 20 77 65 20 67 6f 20 74 6f 20 74 68 65 20 6e  , we go to the n
6f80: 65 78 74 20 6e 6f 64 65 20 61 6e 64 20 72 65 74  ext node and ret
6f90: 72 69 65 76 65 20 61 6c 6c 20 66 6f 6c 6c 6f 77  rieve all follow
6fa0: 69 6e 67 20 61 72 63 73 20 76 61 6c 75 65 73 2c  ing arcs values,
6fb0: 20 61 6c 6c 20 6f 66 20 74 68 65 6d 20 61 72 65   all of them are
6fc0: 20 74 61 67 73 0a 20 20 20 20 20 20 20 20 20 20   tags.          
6fd0: 20 20 20 20 20 20 20 20 20 20 69 66 20 6e 6f 74            if not
6fe0: 20 6e 52 61 77 41 72 63 20 26 20 73 65 6c 66 2e   nRawArc & self.
6ff0: 5f 61 64 64 72 42 69 74 4d 61 73 6b 3a 0a 20 20  _addrBitMask:.  
7000: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
7010: 20 20 20 20 20 20 69 41 64 64 72 32 20 3d 20 69        iAddr2 = i
7020: 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28 73 65  nt.from_bytes(se
7030: 6c 66 2e 62 79 44 69 63 5b 69 45 6e 64 41 72 63  lf.byDic[iEndArc
7040: 41 64 64 72 3a 69 45 6e 64 41 72 63 41 64 64 72  Addr:iEndArcAddr
7050: 2b 73 65 6c 66 2e 6e 42 79 74 65 73 4e 6f 64 65  +self.nBytesNode
7060: 41 64 64 72 65 73 73 5d 2c 20 62 79 74 65 6f 72  Address], byteor
7070: 64 65 72 3d 27 62 69 67 27 29 0a 20 20 20 20 20  der='big').     
7080: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 65                 e
7090: 6c 73 65 3a 0a 20 20 20 20 20 20 20 20 20 20 20  lse:.           
70a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 23 20 77               # w
70b0: 65 20 67 6f 20 74 6f 20 74 68 65 20 65 6e 64 20  e go to the end 
70c0: 6f 66 20 74 68 65 20 6e 6f 64 65 0a 20 20 20 20  of the node.    
70d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
70e0: 20 20 20 20 69 41 64 64 72 32 20 3d 20 69 45 6e      iAddr2 = iEn
70f0: 64 41 72 63 41 64 64 72 0a 20 20 20 20 20 20 20  dArcAddr.       
7100: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
7110: 20 77 68 69 6c 65 20 6e 6f 74 20 6e 52 61 77 41   while not nRawA
7120: 72 63 20 26 20 73 65 6c 66 2e 5f 6c 61 73 74 41  rc & self._lastA
7130: 72 63 4d 61 73 6b 3a 0a 20 20 20 20 20 20 20 20  rcMask:.        
7140: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
7150: 20 20 20 20 6e 52 61 77 41 72 63 20 3d 20 69 6e      nRawArc = in
7160: 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c  t.from_bytes(sel
7170: 66 2e 62 79 44 69 63 5b 69 41 64 64 72 32 3a 69  f.byDic[iAddr2:i
7180: 41 64 64 72 32 2b 73 65 6c 66 2e 6e 42 79 74 65  Addr2+self.nByte
7190: 73 41 72 63 5d 2c 20 62 79 74 65 6f 72 64 65 72  sArc], byteorder
71a0: 3d 27 62 69 67 27 29 0a 20 20 20 20 20 20 20 20  ='big').        
71b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
71c0: 20 20 20 20 69 41 64 64 72 32 20 2b 3d 20 73 65      iAddr2 += se
71d0: 6c 66 2e 6e 42 79 74 65 73 41 72 63 20 2b 20 73  lf.nBytesArc + s
71e0: 65 6c 66 2e 6e 42 79 74 65 73 4e 6f 64 65 41 64  elf.nBytesNodeAd
71f0: 64 72 65 73 73 0a 20 20 20 20 20 20 20 20 20 20  dress.          
7200: 20 20 20 20 20 20 20 20 20 20 6e 52 61 77 41 72            nRawAr
7210: 63 32 20 3d 20 30 0a 20 20 20 20 20 20 20 20 20  c2 = 0.         
7220: 20 20 20 20 20 20 20 20 20 20 20 77 68 69 6c 65             while
7230: 20 6e 6f 74 20 6e 52 61 77 41 72 63 32 20 26 20   not nRawArc2 & 
7240: 73 65 6c 66 2e 5f 6c 61 73 74 41 72 63 4d 61 73  self._lastArcMas
7250: 6b 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  k:.             
7260: 20 20 20 20 20 20 20 20 20 20 20 69 45 6e 64 41             iEndA
7270: 72 63 41 64 64 72 32 20 3d 20 69 41 64 64 72 32  rcAddr2 = iAddr2
7280: 20 2b 20 73 65 6c 66 2e 6e 42 79 74 65 73 41 72   + self.nBytesAr
7290: 63 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  c.              
72a0: 20 20 20 20 20 20 20 20 20 20 6e 52 61 77 41 72            nRawAr
72b0: 63 32 20 3d 20 69 6e 74 2e 66 72 6f 6d 5f 62 79  c2 = int.from_by
72c0: 74 65 73 28 73 65 6c 66 2e 62 79 44 69 63 5b 69  tes(self.byDic[i
72d0: 41 64 64 72 32 3a 69 45 6e 64 41 72 63 41 64 64  Addr2:iEndArcAdd
72e0: 72 32 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d 27  r2], byteorder='
72f0: 62 69 67 27 29 0a 20 20 20 20 20 20 20 20 20 20  big').          
7300: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 6c 2e                l.
7310: 61 70 70 65 6e 64 28 73 53 74 65 6d 20 2b 20 22  append(sStem + "
7320: 2f 22 20 2b 20 73 65 6c 66 2e 6c 41 72 63 56 61  /" + self.lArcVa
7330: 6c 5b 6e 52 61 77 41 72 63 32 20 26 20 73 65 6c  l[nRawArc2 & sel
7340: 66 2e 5f 61 72 63 4d 61 73 6b 5d 29 0a 20 20 20  f._arcMask]).   
7350: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
7360: 20 20 20 20 20 69 41 64 64 72 32 20 3d 20 69 45       iAddr2 = iE
7370: 6e 64 41 72 63 41 64 64 72 32 2b 73 65 6c 66 2e  ndArcAddr2+self.
7380: 6e 42 79 74 65 73 4e 6f 64 65 41 64 64 72 65 73  nBytesNodeAddres
7390: 73 20 20 69 66 20 6e 6f 74 20 6e 52 61 77 41 72  s  if not nRawAr
73a0: 63 32 20 26 20 73 65 6c 66 2e 5f 61 64 64 72 42  c2 & self._addrB
73b0: 69 74 4d 61 73 6b 20 65 6c 73 65 20 69 45 6e 64  itMask else iEnd
73c0: 41 72 63 41 64 64 72 32 0a 20 20 20 20 20 20 20  ArcAddr2.       
73d0: 20 20 20 20 20 20 20 20 20 69 41 64 64 72 20 3d           iAddr =
73e0: 20 69 45 6e 64 41 72 63 41 64 64 72 2b 73 65 6c   iEndArcAddr+sel
73f0: 66 2e 6e 42 79 74 65 73 4e 6f 64 65 41 64 64 72  f.nBytesNodeAddr
7400: 65 73 73 20 20 69 66 20 6e 6f 74 20 6e 52 61 77  ess  if not nRaw
7410: 41 72 63 20 26 20 73 65 6c 66 2e 5f 61 64 64 72  Arc & self._addr
7420: 42 69 74 4d 61 73 6b 20 20 65 6c 73 65 20 69 45  BitMask  else iE
7430: 6e 64 41 72 63 41 64 64 72 0a 20 20 20 20 20 20  ndArcAddr.      
7440: 20 20 20 20 20 20 72 65 74 75 72 6e 20 6c 0a 20        return l. 
7450: 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 5b 5d         return []
7460: 0a 0a 20 20 20 20 64 65 66 20 5f 73 74 65 6d 32  ..    def _stem2
7470: 20 28 73 65 6c 66 2c 20 73 57 6f 72 64 29 3a 0a   (self, sWord):.
7480: 20 20 20 20 20 20 20 20 22 72 65 74 75 72 6e 73          "returns
7490: 20 73 74 65 6d 73 20 6c 69 73 74 20 6f 66 20 3c   stems list of <
74a0: 73 57 6f 72 64 3e 22 0a 20 20 20 20 20 20 20 20  sWord>".        
74b0: 69 41 64 64 72 20 3d 20 30 0a 20 20 20 20 20 20  iAddr = 0.      
74c0: 20 20 66 6f 72 20 63 20 69 6e 20 73 57 6f 72 64    for c in sWord
74d0: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 69 66  :.            if
74e0: 20 63 20 6e 6f 74 20 69 6e 20 73 65 6c 66 2e 64   c not in self.d
74f0: 43 68 61 72 3a 0a 20 20 20 20 20 20 20 20 20 20  Char:.          
7500: 20 20 20 20 20 20 72 65 74 75 72 6e 20 5b 5d 0a        return [].
7510: 20 20 20 20 20 20 20 20 20 20 20 20 69 41 64 64              iAdd
7520: 72 20 3d 20 73 65 6c 66 2e 5f 6c 6f 6f 6b 75 70  r = self._lookup
7530: 41 72 63 4e 6f 64 65 28 73 65 6c 66 2e 64 43 68  ArcNode(self.dCh
7540: 61 72 5b 63 5d 2c 20 69 41 64 64 72 29 0a 20 20  ar[c], iAddr).  
7550: 20 20 20 20 20 20 20 20 20 20 69 66 20 69 41 64            if iAd
7560: 64 72 20 69 73 20 4e 6f 6e 65 3a 0a 20 20 20 20  dr is None:.    
7570: 20 20 20 20 20 20 20 20 20 20 20 20 72 65 74 75              retu
7580: 72 6e 20 5b 5d 0a 20 20 20 20 20 20 20 20 69 66  rn [].        if
7590: 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28   int.from_bytes(
75a0: 73 65 6c 66 2e 62 79 44 69 63 5b 69 41 64 64 72  self.byDic[iAddr
75b0: 3a 69 41 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74  :iAddr+self.nByt
75c0: 65 73 41 72 63 5d 2c 20 62 79 74 65 6f 72 64 65  esArc], byteorde
75d0: 72 3d 27 62 69 67 27 29 20 26 20 73 65 6c 66 2e  r='big') & self.
75e0: 5f 66 69 6e 61 6c 4e 6f 64 65 4d 61 73 6b 3a 0a  _finalNodeMask:.
75f0: 20 20 20 20 20 20 20 20 20 20 20 20 6c 20 3d 20              l = 
7600: 5b 5d 0a 20 20 20 20 20 20 20 20 20 20 20 20 6e  [].            n
7610: 52 61 77 41 72 63 20 3d 20 30 0a 20 20 20 20 20  RawArc = 0.     
7620: 20 20 20 20 20 20 20 77 68 69 6c 65 20 6e 6f 74         while not
7630: 20 6e 52 61 77 41 72 63 20 26 20 73 65 6c 66 2e   nRawArc & self.
7640: 5f 6c 61 73 74 41 72 63 4d 61 73 6b 3a 0a 20 20  _lastArcMask:.  
7650: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 69 45                iE
7660: 6e 64 41 72 63 41 64 64 72 20 3d 20 69 41 64 64  ndArcAddr = iAdd
7670: 72 20 2b 20 73 65 6c 66 2e 6e 42 79 74 65 73 41  r + self.nBytesA
7680: 72 63 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  rc.             
7690: 20 20 20 6e 52 61 77 41 72 63 20 3d 20 69 6e 74     nRawArc = int
76a0: 2e 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66  .from_bytes(self
76b0: 2e 62 79 44 69 63 5b 69 41 64 64 72 3a 69 45 6e  .byDic[iAddr:iEn
76c0: 64 41 72 63 41 64 64 72 5d 2c 20 62 79 74 65 6f  dArcAddr], byteo
76d0: 72 64 65 72 3d 27 62 69 67 27 29 0a 20 20 20 20  rder='big').    
76e0: 20 20 20 20 20 20 20 20 20 20 20 20 6e 41 72 63              nArc
76f0: 20 3d 20 6e 52 61 77 41 72 63 20 26 20 73 65 6c   = nRawArc & sel
7700: 66 2e 5f 61 72 63 4d 61 73 6b 0a 20 20 20 20 20  f._arcMask.     
7710: 20 20 20 20 20 20 20 20 20 20 20 69 66 20 6e 41             if nA
7720: 72 63 20 3e 20 73 65 6c 66 2e 6e 43 68 61 72 3a  rc > self.nChar:
7730: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
7740: 20 20 20 20 20 23 20 54 68 69 73 20 76 61 6c 75       # This valu
7750: 65 20 69 73 20 6e 6f 74 20 61 20 63 68 61 72 2c  e is not a char,
7760: 20 74 68 69 73 20 69 73 20 61 20 73 74 65 6d 6d   this is a stemm
7770: 69 6e 67 20 63 6f 64 65 0a 20 20 20 20 20 20 20  ing code.       
7780: 20 20 20 20 20 20 20 20 20 20 20 20 20 6c 2e 61               l.a
7790: 70 70 65 6e 64 28 73 65 6c 66 2e 66 75 6e 63 53  ppend(self.funcS
77a0: 74 65 6d 6d 69 6e 67 28 73 57 6f 72 64 2c 20 73  temming(sWord, s
77b0: 65 6c 66 2e 6c 41 72 63 56 61 6c 5b 6e 41 72 63  elf.lArcVal[nArc
77c0: 5d 29 29 0a 20 20 20 20 20 20 20 20 20 20 20 20  ])).            
77d0: 20 20 20 20 20 20 20 20 23 20 4e 6f 77 20 2c 20          # Now , 
77e0: 77 65 20 67 6f 20 74 6f 20 74 68 65 20 6e 65 78  we go to the nex
77f0: 74 20 6e 6f 64 65 0a 20 20 20 20 20 20 20 20 20  t node.         
7800: 20 20 20 20 20 20 20 20 20 20 20 69 66 20 6e 6f             if no
7810: 74 20 6e 52 61 77 41 72 63 20 26 20 73 65 6c 66  t nRawArc & self
7820: 2e 5f 61 64 64 72 42 69 74 4d 61 73 6b 3a 0a 20  ._addrBitMask:. 
7830: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
7840: 20 20 20 20 20 20 20 69 41 64 64 72 32 20 3d 20         iAddr2 = 
7850: 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28 73  int.from_bytes(s
7860: 65 6c 66 2e 62 79 44 69 63 5b 69 45 6e 64 41 72  elf.byDic[iEndAr
7870: 63 41 64 64 72 3a 69 45 6e 64 41 72 63 41 64 64  cAddr:iEndArcAdd
7880: 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73 4e 6f 64  r+self.nBytesNod
7890: 65 41 64 64 72 65 73 73 5d 2c 20 62 79 74 65 6f  eAddress], byteo
78a0: 72 64 65 72 3d 27 62 69 67 27 29 0a 20 20 20 20  rder='big').    
78b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
78c0: 65 6c 73 65 3a 0a 20 20 20 20 20 20 20 20 20 20  else:.          
78d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 23 20                # 
78e0: 77 65 20 67 6f 20 74 6f 20 74 68 65 20 65 6e 64  we go to the end
78f0: 20 6f 66 20 74 68 65 20 6e 6f 64 65 0a 20 20 20   of the node.   
7900: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
7910: 20 20 20 20 20 69 41 64 64 72 32 20 3d 20 69 45       iAddr2 = iE
7920: 6e 64 41 72 63 41 64 64 72 0a 20 20 20 20 20 20  ndArcAddr.      
7930: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
7940: 20 20 77 68 69 6c 65 20 6e 6f 74 20 6e 52 61 77    while not nRaw
7950: 41 72 63 20 26 20 73 65 6c 66 2e 5f 6c 61 73 74  Arc & self._last
7960: 41 72 63 4d 61 73 6b 3a 0a 20 20 20 20 20 20 20  ArcMask:.       
7970: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
7980: 20 20 20 20 20 6e 52 61 77 41 72 63 20 3d 20 69       nRawArc = i
7990: 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28 73 65  nt.from_bytes(se
79a0: 6c 66 2e 62 79 44 69 63 5b 69 41 64 64 72 32 3a  lf.byDic[iAddr2:
79b0: 69 41 64 64 72 32 2b 73 65 6c 66 2e 6e 42 79 74  iAddr2+self.nByt
79c0: 65 73 41 72 63 5d 2c 20 62 79 74 65 6f 72 64 65  esArc], byteorde
79d0: 72 3d 27 62 69 67 27 29 0a 20 20 20 20 20 20 20  r='big').       
79e0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
79f0: 20 20 20 20 20 69 41 64 64 72 32 20 2b 3d 20 73       iAddr2 += s
7a00: 65 6c 66 2e 6e 42 79 74 65 73 41 72 63 20 2b 20  elf.nBytesArc + 
7a10: 73 65 6c 66 2e 6e 42 79 74 65 73 4e 6f 64 65 41  self.nBytesNodeA
7a20: 64 64 72 65 73 73 0a 20 20 20 20 20 20 20 20 20  ddress.         
7a30: 20 20 20 20 20 20 20 69 41 64 64 72 20 3d 20 69         iAddr = i
7a40: 45 6e 64 41 72 63 41 64 64 72 2b 73 65 6c 66 2e  EndArcAddr+self.
7a50: 6e 42 79 74 65 73 4e 6f 64 65 41 64 64 72 65 73  nBytesNodeAddres
7a60: 73 20 20 69 66 20 6e 6f 74 20 6e 52 61 77 41 72  s  if not nRawAr
7a70: 63 20 26 20 73 65 6c 66 2e 5f 61 64 64 72 42 69  c & self._addrBi
7a80: 74 4d 61 73 6b 20 20 65 6c 73 65 20 69 45 6e 64  tMask  else iEnd
7a90: 41 72 63 41 64 64 72 0a 20 20 20 20 20 20 20 20  ArcAddr.        
7aa0: 20 20 20 20 72 65 74 75 72 6e 20 6c 0a 20 20 20      return l.   
7ab0: 20 20 20 20 20 72 65 74 75 72 6e 20 5b 5d 0a 0a       return []..
7ac0: 20 20 20 20 64 65 66 20 5f 6c 6f 6f 6b 75 70 41      def _lookupA
7ad0: 72 63 4e 6f 64 65 32 20 28 73 65 6c 66 2c 20 6e  rcNode2 (self, n
7ae0: 56 61 6c 2c 20 69 41 64 64 72 29 3a 0a 20 20 20  Val, iAddr):.   
7af0: 20 20 20 20 20 22 6c 6f 6f 6b 73 20 69 66 20 3c       "looks if <
7b00: 6e 56 61 6c 3e 20 69 73 20 61 6e 20 61 72 63 20  nVal> is an arc 
7b10: 61 74 20 74 68 65 20 6e 6f 64 65 20 61 74 20 3c  at the node at <
7b20: 69 41 64 64 72 3e 2c 20 69 66 20 79 65 73 2c 20  iAddr>, if yes, 
7b30: 72 65 74 75 72 6e 73 20 61 64 64 72 65 73 73 20  returns address 
7b40: 6f 66 20 6e 65 78 74 20 6e 6f 64 65 20 65 6c 73  of next node els
7b50: 65 20 4e 6f 6e 65 22 0a 20 20 20 20 20 20 20 20  e None".        
7b60: 77 68 69 6c 65 20 54 72 75 65 3a 0a 20 20 20 20  while True:.    
7b70: 20 20 20 20 20 20 20 20 69 45 6e 64 41 72 63 41          iEndArcA
7b80: 64 64 72 20 3d 20 69 41 64 64 72 2b 73 65 6c 66  ddr = iAddr+self
7b90: 2e 6e 42 79 74 65 73 41 72 63 0a 20 20 20 20 20  .nBytesArc.     
7ba0: 20 20 20 20 20 20 20 6e 52 61 77 41 72 63 20 3d         nRawArc =
7bb0: 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28   int.from_bytes(
7bc0: 73 65 6c 66 2e 62 79 44 69 63 5b 69 41 64 64 72  self.byDic[iAddr
7bd0: 3a 69 45 6e 64 41 72 63 41 64 64 72 5d 2c 20 62  :iEndArcAddr], b
7be0: 79 74 65 6f 72 64 65 72 3d 27 62 69 67 27 29 0a  yteorder='big').
7bf0: 20 20 20 20 20 20 20 20 20 20 20 20 69 66 20 6e              if n
7c00: 56 61 6c 20 3d 3d 20 28 6e 52 61 77 41 72 63 20  Val == (nRawArc 
7c10: 26 20 73 65 6c 66 2e 5f 61 72 63 4d 61 73 6b 29  & self._arcMask)
7c20: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  :.              
7c30: 20 20 23 20 74 68 65 20 76 61 6c 75 65 20 77 65    # the value we
7c40: 20 61 72 65 20 6c 6f 6f 6b 69 6e 67 20 66 6f 72   are looking for
7c50: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
7c60: 20 69 66 20 6e 6f 74 20 6e 52 61 77 41 72 63 20   if not nRawArc 
7c70: 26 20 73 65 6c 66 2e 5f 61 64 64 72 42 69 74 4d  & self._addrBitM
7c80: 61 73 6b 3a 0a 20 20 20 20 20 20 20 20 20 20 20  ask:.           
7c90: 20 20 20 20 20 20 20 20 20 23 20 77 65 20 72 65           # we re
7ca0: 74 75 72 6e 20 74 68 65 20 61 64 64 72 65 73 73  turn the address
7cb0: 20 6f 66 20 74 68 65 20 6e 65 78 74 20 6e 6f 64   of the next nod
7cc0: 65 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  e.              
7cd0: 20 20 20 20 20 20 72 65 74 75 72 6e 20 69 6e 74        return int
7ce0: 2e 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66  .from_bytes(self
7cf0: 2e 62 79 44 69 63 5b 69 45 6e 64 41 72 63 41 64  .byDic[iEndArcAd
7d00: 64 72 3a 69 45 6e 64 41 72 63 41 64 64 72 2b 73  dr:iEndArcAddr+s
7d10: 65 6c 66 2e 6e 42 79 74 65 73 4e 6f 64 65 41 64  elf.nBytesNodeAd
7d20: 64 72 65 73 73 5d 2c 20 62 79 74 65 6f 72 64 65  dress], byteorde
7d30: 72 3d 27 62 69 67 27 29 0a 20 20 20 20 20 20 20  r='big').       
7d40: 20 20 20 20 20 20 20 20 20 23 20 77 65 20 67 6f           # we go
7d50: 20 74 6f 20 74 68 65 20 65 6e 64 20 6f 66 20 74   to the end of t
7d60: 68 65 20 6e 6f 64 65 0a 20 20 20 20 20 20 20 20  he node.        
7d70: 20 20 20 20 20 20 20 20 69 41 64 64 72 20 3d 20          iAddr = 
7d80: 69 45 6e 64 41 72 63 41 64 64 72 0a 20 20 20 20  iEndArcAddr.    
7d90: 20 20 20 20 20 20 20 20 20 20 20 20 77 68 69 6c              whil
7da0: 65 20 6e 6f 74 20 6e 52 61 77 41 72 63 20 26 20  e not nRawArc & 
7db0: 73 65 6c 66 2e 5f 6c 61 73 74 41 72 63 4d 61 73  self._lastArcMas
7dc0: 6b 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  k:.             
7dd0: 20 20 20 20 20 20 20 6e 52 61 77 41 72 63 20 3d         nRawArc =
7de0: 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28   int.from_bytes(
7df0: 73 65 6c 66 2e 62 79 44 69 63 5b 69 41 64 64 72  self.byDic[iAddr
7e00: 3a 69 41 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74  :iAddr+self.nByt
7e10: 65 73 41 72 63 5d 2c 20 62 79 74 65 6f 72 64 65  esArc], byteorde
7e20: 72 3d 27 62 69 67 27 29 0a 20 20 20 20 20 20 20  r='big').       
7e30: 20 20 20 20 20 20 20 20 20 20 20 20 20 69 41 64               iAd
7e40: 64 72 20 2b 3d 20 73 65 6c 66 2e 6e 42 79 74 65  dr += self.nByte
7e50: 73 41 72 63 20 2b 20 73 65 6c 66 2e 6e 42 79 74  sArc + self.nByt
7e60: 65 73 4e 6f 64 65 41 64 64 72 65 73 73 20 20 69  esNodeAddress  i
7e70: 66 20 6e 6f 74 20 6e 52 61 77 41 72 63 20 26 20  f not nRawArc & 
7e80: 73 65 6c 66 2e 5f 61 64 64 72 42 69 74 4d 61 73  self._addrBitMas
7e90: 6b 20 20 65 6c 73 65 20 73 65 6c 66 2e 6e 42 79  k  else self.nBy
7ea0: 74 65 73 41 72 63 0a 20 20 20 20 20 20 20 20 20  tesArc.         
7eb0: 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 69 41         return iA
7ec0: 64 64 72 0a 20 20 20 20 20 20 20 20 20 20 20 20  ddr.            
7ed0: 23 20 76 61 6c 75 65 20 6e 6f 74 20 66 6f 75 6e  # value not foun
7ee0: 64 0a 20 20 20 20 20 20 20 20 20 20 20 20 69 66  d.            if
7ef0: 20 6e 52 61 77 41 72 63 20 26 20 73 65 6c 66 2e   nRawArc & self.
7f00: 5f 6c 61 73 74 41 72 63 4d 61 73 6b 3a 0a 20 20  _lastArcMask:.  
7f10: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 72 65                re
7f20: 74 75 72 6e 20 4e 6f 6e 65 0a 20 20 20 20 20 20  turn None.      
7f30: 20 20 20 20 20 20 69 41 64 64 72 20 3d 20 69 45        iAddr = iE
7f40: 6e 64 41 72 63 41 64 64 72 2b 73 65 6c 66 2e 6e  ndArcAddr+self.n
7f50: 42 79 74 65 73 4e 6f 64 65 41 64 64 72 65 73 73  BytesNodeAddress
7f60: 20 20 69 66 20 6e 6f 74 20 6e 52 61 77 41 72 63    if not nRawArc
7f70: 20 26 20 73 65 6c 66 2e 5f 61 64 64 72 42 69 74   & self._addrBit
7f80: 4d 61 73 6b 20 20 65 6c 73 65 20 69 45 6e 64 41  Mask  else iEndA
7f90: 72 63 41 64 64 72 0a 0a 20 20 20 20 64 65 66 20  rcAddr..    def 
7fa0: 5f 77 72 69 74 65 4e 6f 64 65 73 32 20 28 73 65  _writeNodes2 (se
7fb0: 6c 66 2c 20 73 70 66 44 65 73 74 29 3a 0a 20 20  lf, spfDest):.  
7fc0: 20 20 20 20 20 20 22 66 6f 72 20 64 65 62 75 67        "for debug
7fd0: 67 69 6e 67 20 6f 6e 6c 79 22 0a 20 20 20 20 20  ging only".     
7fe0: 20 20 20 70 72 69 6e 74 28 22 20 3e 20 57 72 69     print(" > Wri
7ff0: 74 65 20 62 69 6e 61 72 79 20 6e 6f 64 65 73 22  te binary nodes"
8000: 29 0a 20 20 20 20 20 20 20 20 77 69 74 68 20 6f  ).        with o
8010: 70 65 6e 28 73 70 66 44 65 73 74 2c 20 27 77 27  pen(spfDest, 'w'
8020: 2c 20 27 75 74 66 2d 38 27 2c 20 6e 65 77 6c 69  , 'utf-8', newli
8030: 6e 65 3d 22 5c 6e 22 29 20 61 73 20 68 44 73 74  ne="\n") as hDst
8040: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 69 41  :.            iA
8050: 64 64 72 20 3d 20 30 0a 20 20 20 20 20 20 20 20  ddr = 0.        
8060: 20 20 20 20 68 44 73 74 2e 77 72 69 74 65 28 22      hDst.write("
8070: 69 7b 3a 5f 3e 31 30 7d 20 2d 2d 20 23 7b 3a 5f  i{:_>10} -- #{:_
8080: 3e 31 30 7d 5c 6e 22 2e 66 6f 72 6d 61 74 28 22  >10}\n".format("
8090: 30 22 2c 20 69 41 64 64 72 29 29 0a 20 20 20 20  0", iAddr)).    
80a0: 20 20 20 20 20 20 20 20 77 68 69 6c 65 20 69 41          while iA
80b0: 64 64 72 20 3c 20 6c 65 6e 28 73 65 6c 66 2e 62  ddr < len(self.b
80c0: 79 44 69 63 29 3a 0a 20 20 20 20 20 20 20 20 20  yDic):.         
80d0: 20 20 20 20 20 20 20 69 45 6e 64 41 72 63 41 64         iEndArcAd
80e0: 64 72 20 3d 20 69 41 64 64 72 2b 73 65 6c 66 2e  dr = iAddr+self.
80f0: 6e 42 79 74 65 73 41 72 63 0a 20 20 20 20 20 20  nBytesArc.      
8100: 20 20 20 20 20 20 20 20 20 20 6e 52 61 77 41 72            nRawAr
8110: 63 20 3d 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74  c = int.from_byt
8120: 65 73 28 73 65 6c 66 2e 62 79 44 69 63 5b 69 41  es(self.byDic[iA
8130: 64 64 72 3a 69 45 6e 64 41 72 63 41 64 64 72 5d  ddr:iEndArcAddr]
8140: 2c 20 62 79 74 65 6f 72 64 65 72 3d 27 62 69 67  , byteorder='big
8150: 27 29 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  ').             
8160: 20 20 20 6e 41 72 63 20 3d 20 6e 52 61 77 41 72     nArc = nRawAr
8170: 63 20 26 20 73 65 6c 66 2e 5f 61 72 63 4d 61 73  c & self._arcMas
8180: 6b 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  k.              
8190: 20 20 69 66 20 6e 6f 74 20 6e 52 61 77 41 72 63    if not nRawArc
81a0: 20 26 20 73 65 6c 66 2e 5f 61 64 64 72 42 69 74   & self._addrBit
81b0: 4d 61 73 6b 3a 0a 20 20 20 20 20 20 20 20 20 20  Mask:.          
81c0: 20 20 20 20 20 20 20 20 20 20 69 4e 65 78 74 4e            iNextN
81d0: 6f 64 65 41 64 64 72 20 3d 20 69 6e 74 2e 66 72  odeAddr = int.fr
81e0: 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e 62 79  om_bytes(self.by
81f0: 44 69 63 5b 69 45 6e 64 41 72 63 41 64 64 72 3a  Dic[iEndArcAddr:
8200: 69 45 6e 64 41 72 63 41 64 64 72 2b 73 65 6c 66  iEndArcAddr+self
8210: 2e 6e 42 79 74 65 73 4e 6f 64 65 41 64 64 72 65  .nBytesNodeAddre
8220: 73 73 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d 27  ss], byteorder='
8230: 62 69 67 27 29 0a 20 20 20 20 20 20 20 20 20 20  big').          
8240: 20 20 20 20 20 20 20 20 20 20 68 44 73 74 2e 77            hDst.w
8250: 72 69 74 65 28 22 20 20 7b 3a 3c 32 30 7d 20 20  rite("  {:<20}  
8260: 7b 3a 30 3e 31 36 7d 20 20 69 7b 3a 3e 31 30 7d  {:0>16}  i{:>10}
8270: 20 20 20 23 7b 3a 5f 3e 31 30 7d 5c 6e 22 2e 66     #{:_>10}\n".f
8280: 6f 72 6d 61 74 28 73 65 6c 66 2e 6c 41 72 63 56  ormat(self.lArcV
8290: 61 6c 5b 6e 41 72 63 5d 2c 20 62 69 6e 28 6e 52  al[nArc], bin(nR
82a0: 61 77 41 72 63 29 5b 32 3a 5d 2c 20 22 3f 22 2c  awArc)[2:], "?",
82b0: 20 69 4e 65 78 74 4e 6f 64 65 41 64 64 72 29 29   iNextNodeAddr))
82c0: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
82d0: 20 20 20 20 20 69 41 64 64 72 20 3d 20 69 45 6e       iAddr = iEn
82e0: 64 41 72 63 41 64 64 72 2b 73 65 6c 66 2e 6e 42  dArcAddr+self.nB
82f0: 79 74 65 73 4e 6f 64 65 41 64 64 72 65 73 73 0a  ytesNodeAddress.
8300: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
8310: 65 6c 73 65 3a 0a 20 20 20 20 20 20 20 20 20 20  else:.          
8320: 20 20 20 20 20 20 20 20 20 20 68 44 73 74 2e 77            hDst.w
8330: 72 69 74 65 28 22 20 20 7b 3a 3c 32 30 7d 20 20  rite("  {:<20}  
8340: 7b 3a 30 3e 31 36 7d 5c 6e 22 2e 66 6f 72 6d 61  {:0>16}\n".forma
8350: 74 28 73 65 6c 66 2e 6c 41 72 63 56 61 6c 5b 6e  t(self.lArcVal[n
8360: 41 72 63 5d 2c 20 62 69 6e 28 6e 52 61 77 41 72  Arc], bin(nRawAr
8370: 63 29 5b 32 3a 5d 29 29 0a 20 20 20 20 20 20 20  c)[2:])).       
8380: 20 20 20 20 20 20 20 20 20 20 20 20 20 69 41 64               iAd
8390: 64 72 20 3d 20 69 45 6e 64 41 72 63 41 64 64 72  dr = iEndArcAddr
83a0: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
83b0: 20 69 66 20 6e 52 61 77 41 72 63 20 26 20 73 65   if nRawArc & se
83c0: 6c 66 2e 5f 6c 61 73 74 41 72 63 4d 61 73 6b 3a  lf._lastArcMask:
83d0: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
83e0: 20 20 20 20 20 68 44 73 74 2e 77 72 69 74 65 28       hDst.write(
83f0: 22 5c 6e 69 7b 3a 5f 3e 31 30 7d 20 2d 2d 20 23  "\ni{:_>10} -- #
8400: 7b 3a 5f 3e 31 30 7d 5c 6e 22 2e 66 6f 72 6d 61  {:_>10}\n".forma
8410: 74 28 22 3f 22 2c 20 69 41 64 64 72 29 29 0a 20  t("?", iAddr)). 
8420: 20 20 20 20 20 20 20 20 20 20 20 68 44 73 74 2e             hDst.
8430: 63 6c 6f 73 65 28 29 0a 0a 20 20 20 20 23 20 56  close()..    # V
8440: 45 52 53 49 4f 4e 20 33 0a 20 20 20 20 64 65 66  ERSION 3.    def
8450: 20 5f 6d 6f 72 70 68 33 20 28 73 65 6c 66 2c 20   _morph3 (self, 
8460: 73 57 6f 72 64 29 3a 0a 20 20 20 20 20 20 20 20  sWord):.        
8470: 22 72 65 74 75 72 6e 73 20 6d 6f 72 70 68 6f 6c  "returns morphol
8480: 6f 67 69 65 73 20 6f 66 20 3c 73 57 6f 72 64 3e  ogies of <sWord>
8490: 22 0a 20 20 20 20 20 20 20 20 69 41 64 64 72 20  ".        iAddr 
84a0: 3d 20 30 0a 20 20 20 20 20 20 20 20 66 6f 72 20  = 0.        for 
84b0: 63 20 69 6e 20 73 57 6f 72 64 3a 0a 20 20 20 20  c in sWord:.    
84c0: 20 20 20 20 20 20 20 20 69 66 20 63 20 6e 6f 74          if c not
84d0: 20 69 6e 20 73 65 6c 66 2e 64 43 68 61 72 3a 0a   in self.dChar:.
84e0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
84f0: 72 65 74 75 72 6e 20 5b 5d 0a 20 20 20 20 20 20  return [].      
8500: 20 20 20 20 20 20 69 41 64 64 72 20 3d 20 73 65        iAddr = se
8510: 6c 66 2e 5f 6c 6f 6f 6b 75 70 41 72 63 4e 6f 64  lf._lookupArcNod
8520: 65 28 73 65 6c 66 2e 64 43 68 61 72 5b 63 5d 2c  e(self.dChar[c],
8530: 20 69 41 64 64 72 29 0a 20 20 20 20 20 20 20 20   iAddr).        
8540: 20 20 20 20 69 66 20 69 41 64 64 72 20 69 73 20      if iAddr is 
8550: 4e 6f 6e 65 3a 0a 20 20 20 20 20 20 20 20 20 20  None:.          
8560: 20 20 20 20 20 20 72 65 74 75 72 6e 20 5b 5d 0a        return [].
8570: 20 20 20 20 20 20 20 20 69 66 20 69 6e 74 2e 66          if int.f
8580: 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e 62  rom_bytes(self.b
8590: 79 44 69 63 5b 69 41 64 64 72 3a 69 41 64 64 72  yDic[iAddr:iAddr
85a0: 2b 73 65 6c 66 2e 6e 42 79 74 65 73 41 72 63 5d  +self.nBytesArc]
85b0: 2c 20 62 79 74 65 6f 72 64 65 72 3d 27 62 69 67  , byteorder='big
85c0: 27 29 20 26 20 73 65 6c 66 2e 5f 66 69 6e 61 6c  ') & self._final
85d0: 4e 6f 64 65 4d 61 73 6b 3a 0a 20 20 20 20 20 20  NodeMask:.      
85e0: 20 20 20 20 20 20 6c 20 3d 20 5b 5d 0a 20 20 20        l = [].   
85f0: 20 20 20 20 20 20 20 20 20 6e 52 61 77 41 72 63           nRawArc
8600: 20 3d 20 30 0a 20 20 20 20 20 20 20 20 20 20 20   = 0.           
8610: 20 69 41 64 64 72 4e 6f 64 65 20 3d 20 69 41 64   iAddrNode = iAd
8620: 64 72 0a 20 20 20 20 20 20 20 20 20 20 20 20 77  dr.            w
8630: 68 69 6c 65 20 6e 6f 74 20 6e 52 61 77 41 72 63  hile not nRawArc
8640: 20 26 20 73 65 6c 66 2e 5f 6c 61 73 74 41 72 63   & self._lastArc
8650: 4d 61 73 6b 3a 0a 20 20 20 20 20 20 20 20 20 20  Mask:.          
8660: 20 20 20 20 20 20 69 45 6e 64 41 72 63 41 64 64        iEndArcAdd
8670: 72 20 3d 20 69 41 64 64 72 20 2b 20 73 65 6c 66  r = iAddr + self
8680: 2e 6e 42 79 74 65 73 41 72 63 0a 20 20 20 20 20  .nBytesArc.     
8690: 20 20 20 20 20 20 20 20 20 20 20 6e 52 61 77 41             nRawA
86a0: 72 63 20 3d 20 69 6e 74 2e 66 72 6f 6d 5f 62 79  rc = int.from_by
86b0: 74 65 73 28 73 65 6c 66 2e 62 79 44 69 63 5b 69  tes(self.byDic[i
86c0: 41 64 64 72 3a 69 45 6e 64 41 72 63 41 64 64 72  Addr:iEndArcAddr
86d0: 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d 27 62 69  ], byteorder='bi
86e0: 67 27 29 0a 20 20 20 20 20 20 20 20 20 20 20 20  g').            
86f0: 20 20 20 20 6e 41 72 63 20 3d 20 6e 52 61 77 41      nArc = nRawA
8700: 72 63 20 26 20 73 65 6c 66 2e 5f 61 72 63 4d 61  rc & self._arcMa
8710: 73 6b 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  sk.             
8720: 20 20 20 69 66 20 6e 41 72 63 20 3e 20 73 65 6c     if nArc > sel
8730: 66 2e 6e 43 68 61 72 3a 0a 20 20 20 20 20 20 20  f.nChar:.       
8740: 20 20 20 20 20 20 20 20 20 20 20 20 20 23 20 54               # T
8750: 68 69 73 20 76 61 6c 75 65 20 69 73 20 6e 6f 74  his value is not
8760: 20 61 20 63 68 61 72 2c 20 74 68 69 73 20 69 73   a char, this is
8770: 20 61 20 73 74 65 6d 6d 69 6e 67 20 63 6f 64 65   a stemming code
8780: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
8790: 20 20 20 20 20 73 53 74 65 6d 20 3d 20 22 3e 22       sStem = ">"
87a0: 20 2b 20 73 65 6c 66 2e 66 75 6e 63 53 74 65 6d   + self.funcStem
87b0: 6d 69 6e 67 28 73 57 6f 72 64 2c 20 73 65 6c 66  ming(sWord, self
87c0: 2e 6c 41 72 63 56 61 6c 5b 6e 41 72 63 5d 29 0a  .lArcVal[nArc]).
87d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
87e0: 20 20 20 20 23 20 4e 6f 77 20 2c 20 77 65 20 67      # Now , we g
87f0: 6f 20 74 6f 20 74 68 65 20 6e 65 78 74 20 6e 6f  o to the next no
8800: 64 65 20 61 6e 64 20 72 65 74 72 69 65 76 65 20  de and retrieve 
8810: 61 6c 6c 20 66 6f 6c 6c 6f 77 69 6e 67 20 61 72  all following ar
8820: 63 73 20 76 61 6c 75 65 73 2c 20 61 6c 6c 20 6f  cs values, all o
8830: 66 20 74 68 65 6d 20 61 72 65 20 74 61 67 73 0a  f them are tags.
8840: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
8850: 20 20 20 20 69 66 20 6e 6f 74 20 6e 52 61 77 41      if not nRawA
8860: 72 63 20 26 20 73 65 6c 66 2e 5f 61 64 64 72 42  rc & self._addrB
8870: 69 74 4d 61 73 6b 3a 0a 20 20 20 20 20 20 20 20  itMask:.        
8880: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
8890: 69 41 64 64 72 32 20 3d 20 69 6e 74 2e 66 72 6f  iAddr2 = int.fro
88a0: 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e 62 79 44  m_bytes(self.byD
88b0: 69 63 5b 69 45 6e 64 41 72 63 41 64 64 72 3a 69  ic[iEndArcAddr:i
88c0: 45 6e 64 41 72 63 41 64 64 72 2b 73 65 6c 66 2e  EndArcAddr+self.
88d0: 6e 42 79 74 65 73 4e 6f 64 65 41 64 64 72 65 73  nBytesNodeAddres
88e0: 73 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d 27 62  s], byteorder='b
88f0: 69 67 27 29 0a 20 20 20 20 20 20 20 20 20 20 20  ig').           
8900: 20 20 20 20 20 20 20 20 20 65 6c 73 65 3a 0a 20           else:. 
8910: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
8920: 20 20 20 20 20 20 20 69 41 64 64 72 32 20 3d 20         iAddr2 = 
8930: 69 41 64 64 72 4e 6f 64 65 20 2b 20 69 6e 74 2e  iAddrNode + int.
8940: 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e  from_bytes(self.
8950: 62 79 44 69 63 5b 69 45 6e 64 41 72 63 41 64 64  byDic[iEndArcAdd
8960: 72 3a 69 45 6e 64 41 72 63 41 64 64 72 2b 73 65  r:iEndArcAddr+se
8970: 6c 66 2e 6e 42 79 74 65 73 4f 66 66 73 65 74 5d  lf.nBytesOffset]
8980: 2c 20 62 79 74 65 6f 72 64 65 72 3d 27 62 69 67  , byteorder='big
8990: 27 29 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  ').             
89a0: 20 20 20 20 20 20 20 6e 52 61 77 41 72 63 32 20         nRawArc2 
89b0: 3d 20 30 0a 20 20 20 20 20 20 20 20 20 20 20 20  = 0.            
89c0: 20 20 20 20 20 20 20 20 77 68 69 6c 65 20 6e 6f          while no
89d0: 74 20 6e 52 61 77 41 72 63 32 20 26 20 73 65 6c  t nRawArc2 & sel
89e0: 66 2e 5f 6c 61 73 74 41 72 63 4d 61 73 6b 3a 0a  f._lastArcMask:.
89f0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
8a00: 20 20 20 20 20 20 20 20 69 45 6e 64 41 72 63 41          iEndArcA
8a10: 64 64 72 32 20 3d 20 69 41 64 64 72 32 20 2b 20  ddr2 = iAddr2 + 
8a20: 73 65 6c 66 2e 6e 42 79 74 65 73 41 72 63 0a 20  self.nBytesArc. 
8a30: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
8a40: 20 20 20 20 20 20 20 6e 52 61 77 41 72 63 32 20         nRawArc2 
8a50: 3d 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73  = int.from_bytes
8a60: 28 73 65 6c 66 2e 62 79 44 69 63 5b 69 41 64 64  (self.byDic[iAdd
8a70: 72 32 3a 69 45 6e 64 41 72 63 41 64 64 72 32 5d  r2:iEndArcAddr2]
8a80: 2c 20 62 79 74 65 6f 72 64 65 72 3d 27 62 69 67  , byteorder='big
8a90: 27 29 0a 20 20 20 20 20 20 20 20 20 20 20 20 20  ').             
8aa0: 20 20 20 20 20 20 20 20 20 20 20 6c 2e 61 70 70             l.app
8ab0: 65 6e 64 28 73 53 74 65 6d 20 2b 20 22 2f 22 20  end(sStem + "/" 
8ac0: 2b 20 73 65 6c 66 2e 6c 41 72 63 56 61 6c 5b 6e  + self.lArcVal[n
8ad0: 52 61 77 41 72 63 32 20 26 20 73 65 6c 66 2e 5f  RawArc2 & self._
8ae0: 61 72 63 4d 61 73 6b 5d 29 0a 20 20 20 20 20 20  arcMask]).      
8af0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
8b00: 20 20 69 41 64 64 72 32 20 3d 20 69 45 6e 64 41    iAddr2 = iEndA
8b10: 72 63 41 64 64 72 32 2b 73 65 6c 66 2e 6e 42 79  rcAddr2+self.nBy
8b20: 74 65 73 4e 6f 64 65 41 64 64 72 65 73 73 20 20  tesNodeAddress  
8b30: 69 66 20 6e 6f 74 20 6e 52 61 77 41 72 63 32 20  if not nRawArc2 
8b40: 26 20 73 65 6c 66 2e 5f 61 64 64 72 42 69 74 4d  & self._addrBitM
8b50: 61 73 6b 20 20 65 6c 73 65 20 69 45 6e 64 41 72  ask  else iEndAr
8b60: 63 41 64 64 72 32 2b 73 65 6c 66 2e 6e 42 79 74  cAddr2+self.nByt
8b70: 65 73 4f 66 66 73 65 74 0a 20 20 20 20 20 20 20  esOffset.       
8b80: 20 20 20 20 20 20 20 20 20 69 41 64 64 72 20 3d           iAddr =
8b90: 20 69 45 6e 64 41 72 63 41 64 64 72 2b 73 65 6c   iEndArcAddr+sel
8ba0: 66 2e 6e 42 79 74 65 73 4e 6f 64 65 41 64 64 72  f.nBytesNodeAddr
8bb0: 65 73 73 20 20 69 66 20 6e 6f 74 20 6e 52 61 77  ess  if not nRaw
8bc0: 41 72 63 20 26 20 73 65 6c 66 2e 5f 61 64 64 72  Arc & self._addr
8bd0: 42 69 74 4d 61 73 6b 20 20 65 6c 73 65 20 69 45  BitMask  else iE
8be0: 6e 64 41 72 63 41 64 64 72 2b 73 65 6c 66 2e 6e  ndArcAddr+self.n
8bf0: 42 79 74 65 73 4f 66 66 73 65 74 0a 20 20 20 20  BytesOffset.    
8c00: 20 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 6c          return l
8c10: 0a 20 20 20 20 20 20 20 20 72 65 74 75 72 6e 20  .        return 
8c20: 5b 5d 0a 0a 20 20 20 20 64 65 66 20 5f 73 74 65  []..    def _ste
8c30: 6d 33 20 28 73 65 6c 66 2c 20 73 57 6f 72 64 29  m3 (self, sWord)
8c40: 3a 0a 20 20 20 20 20 20 20 20 22 72 65 74 75 72  :.        "retur
8c50: 6e 73 20 73 74 65 6d 73 20 6c 69 73 74 20 6f 66  ns stems list of
8c60: 20 3c 73 57 6f 72 64 3e 22 0a 20 20 20 20 20 20   <sWord>".      
8c70: 20 20 69 41 64 64 72 20 3d 20 30 0a 20 20 20 20    iAddr = 0.    
8c80: 20 20 20 20 66 6f 72 20 63 20 69 6e 20 73 57 6f      for c in sWo
8c90: 72 64 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  rd:.            
8ca0: 69 66 20 63 20 6e 6f 74 20 69 6e 20 73 65 6c 66  if c not in self
8cb0: 2e 64 43 68 61 72 3a 0a 20 20 20 20 20 20 20 20  .dChar:.        
8cc0: 20 20 20 20 20 20 20 20 72 65 74 75 72 6e 20 5b          return [
8cd0: 5d 0a 20 20 20 20 20 20 20 20 20 20 20 20 69 41  ].            iA
8ce0: 64 64 72 20 3d 20 73 65 6c 66 2e 5f 6c 6f 6f 6b  ddr = self._look
8cf0: 75 70 41 72 63 4e 6f 64 65 28 73 65 6c 66 2e 64  upArcNode(self.d
8d00: 43 68 61 72 5b 63 5d 2c 20 69 41 64 64 72 29 0a  Char[c], iAddr).
8d10: 20 20 20 20 20 20 20 20 20 20 20 20 69 66 20 69              if i
8d20: 41 64 64 72 20 69 73 20 4e 6f 6e 65 3a 0a 20 20  Addr is None:.  
8d30: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 72 65                re
8d40: 74 75 72 6e 20 5b 5d 0a 20 20 20 20 20 20 20 20  turn [].        
8d50: 69 66 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65  if int.from_byte
8d60: 73 28 73 65 6c 66 2e 62 79 44 69 63 5b 69 41 64  s(self.byDic[iAd
8d70: 64 72 3a 69 41 64 64 72 2b 73 65 6c 66 2e 6e 42  dr:iAddr+self.nB
8d80: 79 74 65 73 41 72 63 5d 2c 20 62 79 74 65 6f 72  ytesArc], byteor
8d90: 64 65 72 3d 27 62 69 67 27 29 20 26 20 73 65 6c  der='big') & sel
8da0: 66 2e 5f 66 69 6e 61 6c 4e 6f 64 65 4d 61 73 6b  f._finalNodeMask
8db0: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 6c 20  :.            l 
8dc0: 3d 20 5b 5d 0a 20 20 20 20 20 20 20 20 20 20 20  = [].           
8dd0: 20 6e 52 61 77 41 72 63 20 3d 20 30 0a 20 20 20   nRawArc = 0.   
8de0: 20 20 20 20 20 20 20 20 20 23 69 41 64 64 72 4e           #iAddrN
8df0: 6f 64 65 20 3d 20 69 41 64 64 72 0a 20 20 20 20  ode = iAddr.    
8e00: 20 20 20 20 20 20 20 20 77 68 69 6c 65 20 6e 6f          while no
8e10: 74 20 6e 52 61 77 41 72 63 20 26 20 73 65 6c 66  t nRawArc & self
8e20: 2e 5f 6c 61 73 74 41 72 63 4d 61 73 6b 3a 0a 20  ._lastArcMask:. 
8e30: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 69                 i
8e40: 45 6e 64 41 72 63 41 64 64 72 20 3d 20 69 41 64  EndArcAddr = iAd
8e50: 64 72 20 2b 20 73 65 6c 66 2e 6e 42 79 74 65 73  dr + self.nBytes
8e60: 41 72 63 0a 20 20 20 20 20 20 20 20 20 20 20 20  Arc.            
8e70: 20 20 20 20 6e 52 61 77 41 72 63 20 3d 20 69 6e      nRawArc = in
8e80: 74 2e 66 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c  t.from_bytes(sel
8e90: 66 2e 62 79 44 69 63 5b 69 41 64 64 72 3a 69 45  f.byDic[iAddr:iE
8ea0: 6e 64 41 72 63 41 64 64 72 5d 2c 20 62 79 74 65  ndArcAddr], byte
8eb0: 6f 72 64 65 72 3d 27 62 69 67 27 29 0a 20 20 20  order='big').   
8ec0: 20 20 20 20 20 20 20 20 20 20 20 20 20 6e 41 72               nAr
8ed0: 63 20 3d 20 6e 52 61 77 41 72 63 20 26 20 73 65  c = nRawArc & se
8ee0: 6c 66 2e 5f 61 72 63 4d 61 73 6b 0a 20 20 20 20  lf._arcMask.    
8ef0: 20 20 20 20 20 20 20 20 20 20 20 20 69 66 20 6e              if n
8f00: 41 72 63 20 3e 20 73 65 6c 66 2e 6e 43 68 61 72  Arc > self.nChar
8f10: 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  :.              
8f20: 20 20 20 20 20 20 23 20 54 68 69 73 20 76 61 6c        # This val
8f30: 75 65 20 69 73 20 6e 6f 74 20 61 20 63 68 61 72  ue is not a char
8f40: 2c 20 74 68 69 73 20 69 73 20 61 20 73 74 65 6d  , this is a stem
8f50: 6d 69 6e 67 20 63 6f 64 65 0a 20 20 20 20 20 20  ming code.      
8f60: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 6c 2e                l.
8f70: 61 70 70 65 6e 64 28 73 65 6c 66 2e 66 75 6e 63  append(self.func
8f80: 53 74 65 6d 6d 69 6e 67 28 73 57 6f 72 64 2c 20  Stemming(sWord, 
8f90: 73 65 6c 66 2e 6c 41 72 63 56 61 6c 5b 6e 41 72  self.lArcVal[nAr
8fa0: 63 5d 29 29 0a 20 20 20 20 20 20 20 20 20 20 20  c])).           
8fb0: 20 20 20 20 20 69 41 64 64 72 20 3d 20 69 45 6e       iAddr = iEn
8fc0: 64 41 72 63 41 64 64 72 2b 73 65 6c 66 2e 6e 42  dArcAddr+self.nB
8fd0: 79 74 65 73 4e 6f 64 65 41 64 64 72 65 73 73 20  ytesNodeAddress 
8fe0: 20 69 66 20 6e 6f 74 20 6e 52 61 77 41 72 63 20   if not nRawArc 
8ff0: 26 20 73 65 6c 66 2e 5f 61 64 64 72 42 69 74 4d  & self._addrBitM
9000: 61 73 6b 20 20 65 6c 73 65 20 69 45 6e 64 41 72  ask  else iEndAr
9010: 63 41 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65  cAddr+self.nByte
9020: 73 4f 66 66 73 65 74 0a 20 20 20 20 20 20 20 20  sOffset.        
9030: 20 20 20 20 72 65 74 75 72 6e 20 6c 0a 20 20 20      return l.   
9040: 20 20 20 20 20 72 65 74 75 72 6e 20 5b 5d 0a 0a       return []..
9050: 20 20 20 20 64 65 66 20 5f 6c 6f 6f 6b 75 70 41      def _lookupA
9060: 72 63 4e 6f 64 65 33 20 28 73 65 6c 66 2c 20 6e  rcNode3 (self, n
9070: 56 61 6c 2c 20 69 41 64 64 72 29 3a 0a 20 20 20  Val, iAddr):.   
9080: 20 20 20 20 20 22 6c 6f 6f 6b 73 20 69 66 20 3c       "looks if <
9090: 6e 56 61 6c 3e 20 69 73 20 61 6e 20 61 72 63 20  nVal> is an arc 
90a0: 61 74 20 74 68 65 20 6e 6f 64 65 20 61 74 20 3c  at the node at <
90b0: 69 41 64 64 72 3e 2c 20 69 66 20 79 65 73 2c 20  iAddr>, if yes, 
90c0: 72 65 74 75 72 6e 73 20 61 64 64 72 65 73 73 20  returns address 
90d0: 6f 66 20 6e 65 78 74 20 6e 6f 64 65 20 65 6c 73  of next node els
90e0: 65 20 4e 6f 6e 65 22 0a 20 20 20 20 20 20 20 20  e None".        
90f0: 69 41 64 64 72 4e 6f 64 65 20 3d 20 69 41 64 64  iAddrNode = iAdd
9100: 72 0a 20 20 20 20 20 20 20 20 77 68 69 6c 65 20  r.        while 
9110: 54 72 75 65 3a 0a 20 20 20 20 20 20 20 20 20 20  True:.          
9120: 20 20 69 45 6e 64 41 72 63 41 64 64 72 20 3d 20    iEndArcAddr = 
9130: 69 41 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65  iAddr+self.nByte
9140: 73 41 72 63 0a 20 20 20 20 20 20 20 20 20 20 20  sArc.           
9150: 20 6e 52 61 77 41 72 63 20 3d 20 69 6e 74 2e 66   nRawArc = int.f
9160: 72 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e 62  rom_bytes(self.b
9170: 79 44 69 63 5b 69 41 64 64 72 3a 69 45 6e 64 41  yDic[iAddr:iEndA
9180: 72 63 41 64 64 72 5d 2c 20 62 79 74 65 6f 72 64  rcAddr], byteord
9190: 65 72 3d 27 62 69 67 27 29 0a 20 20 20 20 20 20  er='big').      
91a0: 20 20 20 20 20 20 69 66 20 6e 56 61 6c 20 3d 3d        if nVal ==
91b0: 20 28 6e 52 61 77 41 72 63 20 26 20 73 65 6c 66   (nRawArc & self
91c0: 2e 5f 61 72 63 4d 61 73 6b 29 3a 0a 20 20 20 20  ._arcMask):.    
91d0: 20 20 20 20 20 20 20 20 20 20 20 20 23 20 74 68              # th
91e0: 65 20 76 61 6c 75 65 20 77 65 20 61 72 65 20 6c  e value we are l
91f0: 6f 6f 6b 69 6e 67 20 66 6f 72 0a 20 20 20 20 20  ooking for.     
9200: 20 20 20 20 20 20 20 20 20 20 20 69 66 20 6e 6f             if no
9210: 74 20 6e 52 61 77 41 72 63 20 26 20 73 65 6c 66  t nRawArc & self
9220: 2e 5f 61 64 64 72 42 69 74 4d 61 73 6b 3a 0a 20  ._addrBitMask:. 
9230: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
9240: 20 20 20 72 65 74 75 72 6e 20 69 6e 74 2e 66 72     return int.fr
9250: 6f 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e 62 79  om_bytes(self.by
9260: 44 69 63 5b 69 45 6e 64 41 72 63 41 64 64 72 3a  Dic[iEndArcAddr:
9270: 69 45 6e 64 41 72 63 41 64 64 72 2b 73 65 6c 66  iEndArcAddr+self
9280: 2e 6e 42 79 74 65 73 4e 6f 64 65 41 64 64 72 65  .nBytesNodeAddre
9290: 73 73 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d 27  ss], byteorder='
92a0: 62 69 67 27 29 0a 20 20 20 20 20 20 20 20 20 20  big').          
92b0: 20 20 20 20 20 20 72 65 74 75 72 6e 20 69 41 64        return iAd
92c0: 64 72 4e 6f 64 65 20 2b 20 69 6e 74 2e 66 72 6f  drNode + int.fro
92d0: 6d 5f 62 79 74 65 73 28 73 65 6c 66 2e 62 79 44  m_bytes(self.byD
92e0: 69 63 5b 69 45 6e 64 41 72 63 41 64 64 72 3a 69  ic[iEndArcAddr:i
92f0: 45 6e 64 41 72 63 41 64 64 72 2b 73 65 6c 66 2e  EndArcAddr+self.
9300: 6e 42 79 74 65 73 4f 66 66 73 65 74 5d 2c 20 62  nBytesOffset], b
9310: 79 74 65 6f 72 64 65 72 3d 27 62 69 67 27 29 0a  yteorder='big').
9320: 20 20 20 20 20 20 20 20 20 20 20 20 23 20 76 61              # va
9330: 6c 75 65 20 6e 6f 74 20 66 6f 75 6e 64 0a 20 20  lue not found.  
9340: 20 20 20 20 20 20 20 20 20 20 69 66 20 6e 52 61            if nRa
9350: 77 41 72 63 20 26 20 73 65 6c 66 2e 5f 6c 61 73  wArc & self._las
9360: 74 41 72 63 4d 61 73 6b 3a 0a 20 20 20 20 20 20  tArcMask:.      
9370: 20 20 20 20 20 20 20 20 20 20 72 65 74 75 72 6e            return
9380: 20 4e 6f 6e 65 0a 20 20 20 20 20 20 20 20 20 20   None.          
9390: 20 20 69 41 64 64 72 20 3d 20 69 45 6e 64 41 72    iAddr = iEndAr
93a0: 63 41 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65  cAddr+self.nByte
93b0: 73 4e 6f 64 65 41 64 64 72 65 73 73 20 20 69 66  sNodeAddress  if
93c0: 20 6e 6f 74 20 6e 52 61 77 41 72 63 20 26 20 73   not nRawArc & s
93d0: 65 6c 66 2e 5f 61 64 64 72 42 69 74 4d 61 73 6b  elf._addrBitMask
93e0: 20 20 65 6c 73 65 20 69 45 6e 64 41 72 63 41 64    else iEndArcAd
93f0: 64 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73 4f 66  dr+self.nBytesOf
9400: 66 73 65 74 0a 0a 20 20 20 20 64 65 66 20 5f 77  fset..    def _w
9410: 72 69 74 65 4e 6f 64 65 73 33 20 28 73 65 6c 66  riteNodes3 (self
9420: 2c 20 73 70 66 44 65 73 74 29 3a 0a 20 20 20 20  , spfDest):.    
9430: 20 20 20 20 22 66 6f 72 20 64 65 62 75 67 67 69      "for debuggi
9440: 6e 67 20 6f 6e 6c 79 22 0a 20 20 20 20 20 20 20  ng only".       
9450: 20 70 72 69 6e 74 28 22 20 3e 20 57 72 69 74 65   print(" > Write
9460: 20 62 69 6e 61 72 79 20 6e 6f 64 65 73 22 29 0a   binary nodes").
9470: 20 20 20 20 20 20 20 20 77 69 74 68 20 6f 70 65          with ope
9480: 6e 28 73 70 66 44 65 73 74 2c 20 27 77 27 2c 20  n(spfDest, 'w', 
9490: 27 75 74 66 2d 38 27 2c 20 6e 65 77 6c 69 6e 65  'utf-8', newline
94a0: 3d 22 5c 6e 22 29 20 61 73 20 68 44 73 74 3a 0a  ="\n") as hDst:.
94b0: 20 20 20 20 20 20 20 20 20 20 20 20 69 41 64 64              iAdd
94c0: 72 20 3d 20 30 0a 20 20 20 20 20 20 20 20 20 20  r = 0.          
94d0: 20 20 68 44 73 74 2e 77 72 69 74 65 28 22 69 7b    hDst.write("i{
94e0: 3a 5f 3e 31 30 7d 20 2d 2d 20 23 7b 3a 5f 3e 31  :_>10} -- #{:_>1
94f0: 30 7d 5c 6e 22 2e 66 6f 72 6d 61 74 28 22 30 22  0}\n".format("0"
9500: 2c 20 69 41 64 64 72 29 29 0a 20 20 20 20 20 20  , iAddr)).      
9510: 20 20 20 20 20 20 77 68 69 6c 65 20 69 41 64 64        while iAdd
9520: 72 20 3c 20 6c 65 6e 28 73 65 6c 66 2e 62 79 44  r < len(self.byD
9530: 69 63 29 3a 0a 20 20 20 20 20 20 20 20 20 20 20  ic):.           
9540: 20 20 20 20 20 69 45 6e 64 41 72 63 41 64 64 72       iEndArcAddr
9550: 20 3d 20 69 41 64 64 72 2b 73 65 6c 66 2e 6e 42   = iAddr+self.nB
9560: 79 74 65 73 41 72 63 0a 20 20 20 20 20 20 20 20  ytesArc.        
9570: 20 20 20 20 20 20 20 20 6e 52 61 77 41 72 63 20          nRawArc 
9580: 3d 20 69 6e 74 2e 66 72 6f 6d 5f 62 79 74 65 73  = int.from_bytes
9590: 28 73 65 6c 66 2e 62 79 44 69 63 5b 69 41 64 64  (self.byDic[iAdd
95a0: 72 3a 69 45 6e 64 41 72 63 41 64 64 72 5d 2c 20  r:iEndArcAddr], 
95b0: 62 79 74 65 6f 72 64 65 72 3d 27 62 69 67 27 29  byteorder='big')
95c0: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
95d0: 20 6e 41 72 63 20 3d 20 6e 52 61 77 41 72 63 20   nArc = nRawArc 
95e0: 26 20 73 65 6c 66 2e 5f 61 72 63 4d 61 73 6b 0a  & self._arcMask.
95f0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
9600: 69 66 20 6e 6f 74 20 6e 52 61 77 41 72 63 20 26  if not nRawArc &
9610: 20 73 65 6c 66 2e 5f 61 64 64 72 42 69 74 4d 61   self._addrBitMa
9620: 73 6b 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  sk:.            
9630: 20 20 20 20 20 20 20 20 69 4e 65 78 74 4e 6f 64          iNextNod
9640: 65 41 64 64 72 20 3d 20 69 6e 74 2e 66 72 6f 6d  eAddr = int.from
9650: 5f 62 79 74 65 73 28 73 65 6c 66 2e 62 79 44 69  _bytes(self.byDi
9660: 63 5b 69 45 6e 64 41 72 63 41 64 64 72 3a 69 45  c[iEndArcAddr:iE
9670: 6e 64 41 72 63 41 64 64 72 2b 73 65 6c 66 2e 6e  ndArcAddr+self.n
9680: 42 79 74 65 73 4e 6f 64 65 41 64 64 72 65 73 73  BytesNodeAddress
9690: 5d 2c 20 62 79 74 65 6f 72 64 65 72 3d 27 62 69  ], byteorder='bi
96a0: 67 27 29 0a 20 20 20 20 20 20 20 20 20 20 20 20  g').            
96b0: 20 20 20 20 20 20 20 20 68 44 73 74 2e 77 72 69          hDst.wri
96c0: 74 65 28 22 20 20 7b 3a 3c 32 30 7d 20 20 7b 3a  te("  {:<20}  {:
96d0: 30 3e 31 36 7d 20 20 69 7b 3a 3e 31 30 7d 20 20  0>16}  i{:>10}  
96e0: 20 23 7b 3a 5f 3e 31 30 7d 5c 6e 22 2e 66 6f 72   #{:_>10}\n".for
96f0: 6d 61 74 28 73 65 6c 66 2e 6c 41 72 63 56 61 6c  mat(self.lArcVal
9700: 5b 6e 41 72 63 5d 2c 20 62 69 6e 28 6e 52 61 77  [nArc], bin(nRaw
9710: 41 72 63 29 5b 32 3a 5d 2c 20 22 3f 22 2c 20 69  Arc)[2:], "?", i
9720: 4e 65 78 74 4e 6f 64 65 41 64 64 72 29 29 0a 20  NextNodeAddr)). 
9730: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
9740: 20 20 20 69 41 64 64 72 20 3d 20 69 45 6e 64 41     iAddr = iEndA
9750: 72 63 41 64 64 72 2b 73 65 6c 66 2e 6e 42 79 74  rcAddr+self.nByt
9760: 65 73 4e 6f 64 65 41 64 64 72 65 73 73 0a 20 20  esNodeAddress.  
9770: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 65 6c                el
9780: 73 65 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  se:.            
9790: 20 20 20 20 20 20 20 20 69 4e 65 78 74 4e 6f 64          iNextNod
97a0: 65 41 64 64 72 20 3d 20 69 6e 74 2e 66 72 6f 6d  eAddr = int.from
97b0: 5f 62 79 74 65 73 28 73 65 6c 66 2e 62 79 44 69  _bytes(self.byDi
97c0: 63 5b 69 45 6e 64 41 72 63 41 64 64 72 3a 69 45  c[iEndArcAddr:iE
97d0: 6e 64 41 72 63 41 64 64 72 2b 73 65 6c 66 2e 6e  ndArcAddr+self.n
97e0: 42 79 74 65 73 4f 66 66 73 65 74 5d 2c 20 62 79  BytesOffset], by
97f0: 74 65 6f 72 64 65 72 3d 27 62 69 67 27 29 0a 20  teorder='big'). 
9800: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
9810: 20 20 20 68 44 73 74 2e 77 72 69 74 65 28 22 20     hDst.write(" 
9820: 20 7b 3a 3c 32 30 7d 20 20 7b 3a 30 3e 31 36 7d   {:<20}  {:0>16}
9830: 20 20 69 7b 3a 3e 31 30 7d 20 20 20 2b 7b 3a 5f    i{:>10}   +{:_
9840: 3e 31 30 7d 5c 6e 22 2e 66 6f 72 6d 61 74 28 73  >10}\n".format(s
9850: 65 6c 66 2e 6c 41 72 63 56 61 6c 5b 6e 41 72 63  elf.lArcVal[nArc
9860: 5d 2c 20 62 69 6e 28 6e 52 61 77 41 72 63 29 5b  ], bin(nRawArc)[
9870: 32 3a 5d 2c 20 22 3f 22 2c 20 69 4e 65 78 74 4e  2:], "?", iNextN
9880: 6f 64 65 41 64 64 72 29 29 0a 20 20 20 20 20 20  odeAddr)).      
9890: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 69 41                iA
98a0: 64 64 72 20 3d 20 69 45 6e 64 41 72 63 41 64 64  ddr = iEndArcAdd
98b0: 72 2b 73 65 6c 66 2e 6e 42 79 74 65 73 4f 66 66  r+self.nBytesOff
98c0: 73 65 74 0a 20 20 20 20 20 20 20 20 20 20 20 20  set.            
98d0: 20 20 20 20 69 66 20 6e 52 61 77 41 72 63 20 26      if nRawArc &
98e0: 20 73 65 6c 66 2e 5f 6c 61 73 74 41 72 63 4d 61   self._lastArcMa
98f0: 73 6b 3a 0a 20 20 20 20 20 20 20 20 20 20 20 20  sk:.            
9900: 20 20 20 20 20 20 20 20 68 44 73 74 2e 77 72 69          hDst.wri
9910: 74 65 28 22 5c 6e 69 7b 3a 5f 3e 31 30 7d 20 2d  te("\ni{:_>10} -
9920: 2d 20 23 7b 3a 5f 3e 31 30 7d 5c 6e 22 2e 66 6f  - #{:_>10}\n".fo
9930: 72 6d 61 74 28 22 3f 22 2c 20 69 41 64 64 72 29  rmat("?", iAddr)
9940: 29 0a 20 20 20 20 20 20 20 20 20 20 20 20 68 44  ).            hD
9950: 73 74 2e 63 6c 6f 73 65 28 29 0a                 st.close().