Se sono presenti tag all'interno del testo, probabilmente la prima cosa da fare è di farlo sapere a WordSmith. A tale fine , nel Controller, scegliere Settings | Adjust Settings
e quindi Tags and Mark-up.
Se si sta utilizzando il British National Corpus, indicarlo in Custom settings come in questo caso. Selezionare quindi un Entity file se si vuole evitare di avere parole come eacute; al posto di é ad altre cose simili, e premere Load:
.
Fino a questo punto si è programmato il Controller per ignorare tutti i tag che iniziano e finiscono con i segni di maggiore - minore (< >), per tradurre alcune entità di riferimento in simboli come % e ", e per eliminare l'intestazione di ogni testo (fino a </teiHeader>). È già molto come inizio.