Pour extraire une liste de n-grammes (groupes de deux ou trois mots, ou davantage) tels que :
OF THE
IN THE END
ONCE UPON A TIME
etc., il vous faudra préalablement constituer un fichier index. Ce fichier contiendra essentiellement la position de chaque mot individuel contenu dans votre corpus.
Voir également : Création d'une liste de multi-mots