Utilisation des balises comme sélecteurs de texte

Retour  Précédent  Suivant

 

Paramètres par défaut

Les paramètres par défaut sont les suivants : sélectionner toutes les sections de tous les textes choisis dans Sélectionner des textes, avec suppression de toutes les balises placées entre crochets.

 

Cependant, WordSmith peut utiliser les balises pour sélectionner une section de texte et ignorer le reste. Il s'agit de la "sélection au sein de textes". Vous pouvez également choisir parmi les textes : c'est-à-dire que WordSmith peut analyser le début de chaque texte afin de déterminer s'il répond à certains critères.

Pour accéder à ces fonctions, cliquez sur Paramètres | Modifier les paramètres | Balises | Seulement si les éléments contenus sont ou Uniquement une partie du fichier.

 

document_header_ends

 

Paramètres personnalisés

Cette fenêtre offre différentes possibilités qui facilitent les choix suivants. Si vous sélectionnez British National Corpus World Edition par exemple, comme sur la capture d'écran, </teiHeader> sera automatiquement ajouté dans la boîte "Fin d'en-tête du document".

 

Balises à ignorer

Pour supprimer des balises, par exemple dans un fichier HTML, saisissez < > ou [ ] ou < >;[ ] dans Balises à ignorer. "Étendue de la recherche" correspond à la distance que doit parcourir WordSmith dans le texte pour trouver un symbole de fermeture comme > après un symbole d'ouverture comme <. La raison est que ces symboles sont également utilisés en mathématiques.

 

Fichier de balises, fichier d'entités

Voir Création d'un fichier de balises.

 

En-tête du document

Pour supprimer l'en-tête d'un document (un en-tête répété, contenant des informations sur le copyright, comme au début de chaque texte du BNC), assurez-vous simplement que vous avez correctement spécifié les balises, comme dans l'exemple de </teiHeader>. L'option Paramètres personnalisés au-dessus vous indique automatiquement les choix appropriés.

Pour des recherches plus complexes, vous pouvez utiliser les boutons Seulement si les éléments contenus sont ou Uniquement une partie du fichier que vous voyez sur l'image ci-dessus.

 

Dans quel ordre les différentes sélections sont-elles traitées ?

Que vous effectuiez une sélection parmi différents textes ou une sélection au sein d'un texte, WordSmith vérifie que chaque fichier texte répond à vos critères avant d'effectuer une concordance, une liste de mots, etc. Wordsmith

1. Effectue une sélection parmi des fichiers pour voir s'ils contiennent les mots spécifiés

2. Supprime toutes les "sections à supprimer"

3. Si vous avez spécifié des "sections à conserver", WordSmith supprime tout ce qui ne s'y trouve pas

4. Coupe le début de chaque ligne, si possible

5. Traite les références d'entités à traduire

6. Ignore toutes les balises qui n'ont pas été conservées (reportez-vous à la section "Balises à ignorer" de la capture d'écran ci-dessus).

 

 

Rubriques connexes : Présentation générale des balises, Création d'un fichier de balises, Gestion des balises, Concordance des balises, Affichage des balises les plus proches dans Concord, Affichage des balises, Types de balises