Caractéristiques de texte

Retour  Précédent  Suivant

 

text_and_language_settings

 

Ces paramètres agissent sur la façon dont WordSmith va traiter vos textes. En haut se trouvent les boîtes qui permettent de choisir la famille de langue (par exemple l'anglais) et la sous-famille (Royaume-Uni, Australie, etc). Ces choix sont fixés par les préférences préalablement définies. Cela vous permet de définir vos préférences de façon permanente, puisque vous ne travaillez normalement qu'avec un nombre limité de langues. Pour ce faire, appuyez sur le bouton Éditer les langues.

 

Les choix suivants varient en fonction de la langue :

 

trait d'unions et nombres

Vous pouvez spécifier s'il faut considérer les traits d'unions comme des séparateurs de mots. Si vous cochez la case trait d'union, auto-école sera considéré comme deux mots.

Faut-il inclure les nombres dans une liste de mots comme s'ils étaient des mots ordinaires ? Si vous ne cochez pas la case, des mots comme $300, 50,3M ou 10ème seront ignorés dans les listes de mots, mots-clés, concordances, etc. et remplacés par un #. Ils seront inclus si vous cochez la case.

 

caractères dans le mot

WordSmith inclut automatiquement comme symboles alphabétiques valides tous ceux déterminés par le système d'exploitation comme étant alphabétiques pour la langue choisie. En anglais, il s'agit des lettres de A à Z et d'accents courants comme é. En arabe ou en japonais, il s'agit de tous les caractères considérés comme alphabétiques par Microsoft.

Il est utile d'autoriser des caractères supplémentaires au sein d'un mot. En anglais par exemple, l'apostrophe dans father's doit être incluse comme caractère valide pour pouvoir traiter le mot entier. Cependant, il se peut que vous ne souhaitiez pas accepter les apostrophes en milieu de mot en français.

Exemples :

'        (seules les apostrophes sont acceptées en milieu de mot)

'%        (les apostrophes et le symbole pourcent sont acceptés en milieu de mot)

'_        (les apostrophes et le trait de soulignement sont acceptés en milieu de mot)

Vous pouvez en inclure 10 différents au total.

Pour accepter fathers', cochez la case autoriser en fin de mot. Si vous cochez cette case, tous ces symboles seront autorisés en début et en fin de mot, tant qu'ils n'apparaissent pas seuls (comme dans "  '  ").

 

Texte brut/HTML/SGML

Vos textes peuvent être au format texte brut : c'est la valeur par défaut. S'ils sont codés en HTML, SGML ou XML, sélectionnez une des options. Les outils peuvent ainsi utiliser au mieux le balisage des phrases, paragraphes et en-têtes.

 

Format Windows, etc.

Informations sur les jeux de caractères Windows pour votre langue de travail.

 

début et fin d'en-tête

Il faut que les outils puissent reconnaître les débuts et fins d'en-têtes. Si votre texte est balisé avec <h1> et </h1> par exemple, saisissez <h#> et </h#>. (# représente un chiffre, ## en représente deux, etc.). Toutes vos saisies sont sensibles à la casse : </H#> est différent de </h#>. Si dans un texte en HTML vous avez tantôt </h1> tantôt </H1>, utilisez Text Converter pour rendre vos textes cohérents à ce niveau.

 

début et fin de section

Si ces boîtes contiennent par exemple <div#> et </div>, les outils traiteront les sections identifiées. Attention, vos saisies sont sensibles à la casse.

 

début et fin de phrase

Si cet espace contient le mot auto, les outils traiteront les phrases comme définies (point final, point d'interrogation ou d'exclamation, suivis d'une majuscule). Si votre texte est balisé avec <s> et </s>, par exemple, indiquez-le ici. Attention, vos saisies sont sensibles à la casse.

 

début et fin de paragraphe

Pour que les outils puissent reconnaître les paragraphes, il faut spécifier quels sont les marqueurs de début et de fin de paragraphe, par exemple deux retours à la ligne consécutifs insérés par l'auteur du document (deux fois Entrée), ou Entrée suivi de Tab. Pour ce faire, tapez <Enter><Tab>. Indiquez ici si votre texte est balisé par exemple avec <p> et </p>. Attention à la casse.

Souvent, vous considérez qu'il suffit de définir une fin de paragraphe et qu'ensuite tout en découle. Souvent, les textes en HTML n'effectuent pas de distinction cohérente entre début et fin de paragraphe.

Remarque : les textes parlés du BNC utilisent </u> au lieu de </p>, mais vous pouvez conserver </p> dans ce cas car WordSmith utilisera </u> à la place si le texte ne contient pas de </p>.

 

les fichiers

*.* permet d'afficher tous les types de textes. Vous pouvez limiter la recherche à *.txt.

 

Rubriques connexes : Texte balisé, Listes d'arrêt, Sélectionner une nouvelle langue. Traitement de texte Chinois etc.