Vous êtes sur la page 1sur 6

Fichier texte

En informatique, un fichier texte ou fichier texte brut ou fichier texte simple


est un fichier dont le contenu reprsente uniquement une suite de caractres; il uti
lise ncessairement une forme particulire de codage de caractre qui peut tre une vari
ante ou une extension du standard local des tats-Unis, l'ASCII. Il n'existe aucun
e dfinition officielle, et les diffrentes interprtations de ce qu'est un fichier te
xte partagent des proprits essentielles. Les caractres considrs sont gnralement les ca
actres imprimables, d'espaces et de retours la ligne. Certains codages de caractre
s normaliss incluent galement certains caractres de contrleN 1, squence d'chappementN
2ou marqueurs N 3 qui peuvent faire l'objet de diffrences d'apprciations. La notio
n de fichier texte est donc subjective et dpend notamment des systmes de codage de
caractre considrs (windows-1252 et ISO-8859-1 n'offrant pas les mmes plages de vale
urs imprimables.)
Les 95 caractres et signes du codage ASCII
Un fichier non texte est appel fichier binaire , dans le sens o les bits contenus d
ans le fichier ne reprsentent pas une simple suite de caractres imprimables, d'esp
aces et de retours la ligne.
Sommaire
1 Histoire
2 Texte brut
3 Apports et limitations
3.1 Apports
3.2 Limitations
4 Usage
5 Structure et proprits
5.1 Squence de lignes
5.2 Alignement vertical
6 Standardisation et normalisation
6.1 Codage des caractres
6.1.1 Rle de l'ASCII
6.2 Rle du BOM
6.3 Squence d'chappement
7 Notes et rfrences
7.1 Notes
7.2 Rfrences
8 Voir aussi
8.1 Articles connexes
Histoire
Un fichier en carte perfore
Extrait d'un programme crit en BASIC
Copie papier d'un code source (en Fortran) des annes 1970, imprim sur du papier co
ntinu, ddi aux fichiers textes.
La notion de fichier texte a volu avec l'histoire de l'informatique.
Le mot fichier ( file en anglais) a t utilis publiquement dans le contexte d'un enre
gistrement informatique dj en fvrier 1950. Une publicit de la radio Radio Corporatio
n of America de Popular Science Magazine1 dcrivant une nouvelle mmoire tube vide q
u'elle avait dveloppe, expliquait :
...the results of countless computations can be kept "on file" and taken out
again. Such a "file" now exists in a "memory" tube developed at RCA Laboratorie
s. Electronically it retains figures fed into calculating machines, holds them i
n storage while it memorizes new ones - speeds intelligent solutions through maz
es of mathematics.

En 1952 un fichier tait utilis pour dsigner l'information enregistre sur une carte p
erfore.
Or il se trouve que les cartes perfores partageaient certaines proprits:
Chaque carte reprsentait une ligne de 80 colonnes (en gnral)
Les programmes (code source) taient crits en assemblant des lignes de textes
Les cartes perfores qui ne contenaient pas de texte taient donc dj diffrentes.
En 1971, le RFC 265 indique qu'un fichier peut tre ASCII, cur d'excutable, ou autre
. Il mentionne notamment l'EBCDIC.
En juillet 1972, le RFC 354, discutant des changes de texte par le protocole rseau
NVT-ASCIIN 4FTP, indique que les fichiers textes sont enregistrs de manires diffre
ntes selon les systmes:
Le PDP-10 enregistre le NVT-ASCII en 7-bits justifis gauche dans des mots de
36 bits;
Le 360's enregistre le texte avec un codage EBCDIC 8-bit;
Multics enregistre le texte avec quatre caractre de neuf bits dans des mots d
e 36 bits;
Il indique donc que pour le bon transfert des textes, il est ncessaire que les de
ux parties effectuent leur part respective de la conversion dans un codage commu
n; il s'agit cette poque de l'ASCII 8 bits, dit NVT.
Cette mme anne, la RFC fait apparatre le besoin d'une unit commune pour transmettre
des donnes binaires entre systmes dont les mots n'ont pas la mme taille, et suggre l
'utilisation de byte de 8 bits, c'est--dire, de ce que l'on appelle aujourd'hui d
es octets, tout en permettant l'utilisation de bytes/mots diffrents si ngoci.
En 1980, le RFC 765 en spcifiant le protocole FTP indique les trois raisons occas
ionnant le transfert d'un fichier : l'impression, l'archivage, et le traitement.
Constatant, que le seul encodage n'est pas une mtainformation suffisante, il spci
fie le reste et notamment les diffrents mcanismes de changement de ligne travers d
es caractres de contrle ou de dfilement de lignes. En page 12, le RFC clarifie que
les fichiers textes sont tout aussi bien des fichiers ASCII que des fichiers EBC
DIC.
En 1985, lors de l'laboration du protocole FTP de transfert de fichier, il a t reco
mmand de considrer comme fichier texte (en anglais "text" files ), deux formats de
fichiers :
les fichiers file structure, o le fichier est considr tre une squence continue de
lignes.
les fichiers record-structure, o le fichier est constitu d'enregistrements sque
ntielsN 5
De mme les types ASCII et EBCDIC ont t accepts comme fichier texte2.
Cette section est vide, insuffisamment dtaille ou incomplte. Votre aide est la bien
venue !
Texte brut
Article dtaill : Texte brut.
Texte brut Unicode (Unicode plain text)
De nos jours, l'Unicode est de plus en plus reconnu comme format de texte brut.
Le standard Unicode dfinit selon ses propres termes ce qu'est le texte brut, sous
le terme de plain text, dans sa version anglaise.

La notion de fichier texte se rapproche donc des proprits que le standard Unicode
attribue au format nomm plain text en langue anglaise et signifiant texte brut.
Gnralits et controverses
La notion de texte brut (plain text) a comme la notion de texte enrichi (fancy t
ext) t introduite par Unicode 3.
La notion de plain text peut tre traduite par texte en clair, pur texte, texte pu
r, ou texte brut 3.
Linux Information Project en donne une vision restrictive.
Format de codage
Si l'encodage est inconnu, un texte brut quelconque est inexploitable.
Texte brut approch en mathmatiques

Alors que les mathmatiques sont un langage international, en tout ou partie, leur
reprsentation informatique a pu tre nglige lors de la cration de diffrents systmes de
codage des caractres. Toutefois, ces symboles ont bnfici d'une forte prise en charge
par l'Unicode 4, offrant de nouvelles perspectives.
Histoire
La notion de texte brut est implicitement assez ancienne puisque vraisemblableme
nt elle remonte sans doute au moins si ce n'est la notion de machine crire, aux p
remiers langages de programmation utilisant cette technologie.
Dans son aspect rseau, elle est consigne dans de nombreux RFC.
Protocole et fichier
L'usage du texte brut peut varier entre protocole et ficher. Ceci peut est gnralem
ent invisible l'utilisateur lorsqu'il copie un texte d'un logiciel un autre.
Dans un protocole, le protocole spcifie gnralement l'encodage utilis, d'une manire ou
d'une autre; la longueur du texte peut ne pas tre limit, en fonction du protocole
.
Un fichier a gnralement une taille limite, il est gnralement admis qu'un systme de fic
hier ne fournit pas d'information sur l'encodage utilis pour encoder un texte bru
t donn. Cette information essentielle est alors dtermine travers un ensemble d'heur
istiques.
Apports et limitations
Le fichier texte est un lment dterminant en ce qu'il offre la possibilit de dcrire de
s codes sources et de faciliter la programmation des ordinateurs.
Toutefois, il souffre de facto de nombreux problme d'interoprabilit.
Apports
Le fichier texte, lorsqu'il apparait apporte la possibilit de permettre un humain
de soumettre un texte au traitement automatique d'une machine. Il offre galement
la possibilit de supprimer et d'ajouter une ligne, et cela ds les cartes perfores.
Cette fonctionnalit a t reprise par des logiciels comme ed ou edlin.
Limitations

Un fichier texte est limit dans sa taille, comme le sont tous les fichiers, par l
e systme de gestion de fichiers.
De plus par convention on limite volontairement le nombre de colonnes. Une conve
ntion commune est ancienne est d'environ 80 ou 132 colonnes. Cela correspondait
aux standards de terminaux physiques aujourd'hui dpasss. Les diteurs modernes saven
t souvent grer des lignes plus longues bien que cela ne soit pas conseill pour des
questions de prsentation.
Le fichier texte peut poser de nombreux problmes d'interoprabilit (pour cause d'enc
odage diffrents) entre pays, entre fournisseurs de logiciels, notamment.
Usage
Les fichiers texte sont utiliss par de nombreux logiciels pour conserver les donne
s de configuration. Ils sont galement utiliss pour contenir les textes crits en lan
gages de programmation. En outre, la plupart des langages de programmation offre
nt des fonctions prdfinies pour manipuler du texte brut, ce qui rend la gestion de
s fichiers textes particulirement accessible.
Le logiciel utilis pour diter un fichier texte est un diteur de texte. Dans le cas
gnral, un traitement de texte ne produit pas des fichiers texte. En effet, un trai
tement de texte n'a pas seulement besoin de manipuler du texte brut, mais galemen
t des informations sur la fonte de caractre utilise, la disposition des caractres d
ans des pages, les styles typographiques, etc. Toutefois, les traitements de tex
te peuvent ouvrir ou sauvegarder un fichier texte, aucune information de mise en
forme n'tant conserve, sauf le cas chant les sauts de ligne.
Un fichier texte peut tre la structure sous-jacente d'un fichier journal5.
Structure et proprits
La structure d'un fichier texte est une squence de lignes. Toutefois, historiquem
ent, chaque caractre est align verticalement, c'est encore le cas aujourd'hui, dan
s un diteur de texte en ligne ou local.
Squence de lignes
Le concept de squence de lignes reste une caractristique forte d'un fichier texte.
Un fichier texte peut simplement contenir du texte dans une langue quelconque. D
ans ce cas, aujourd'hui, il ne respecte plus aucune structure particulire.
Il tait une fois une marchande de foie
qui vendait du foie dans la Ville de Foix.
Elle se dit ma foi c'est la premire fois
que je vends du foie dans la ville de Foix !
using (FileStream stm = new FileStream("logfile.txt", FileMode.Create)) {
return ProcessStuff(stm);
//
}
Un fichier texte peut galement contenir une donne structure qui peut tre analyse par
un logiciel et affiche sous une forme plus volue, par exemple une page web :
<!DOCTYPE html>
<html lang="fr">
<head><title>Page web d'exemple</title></head>
<body>
<p>Ceci est une page web d'exemple.</p>
</body>
</html>

Alignement vertical
Un fichier texte est gnralement rendu visible avec des polices chasse fixe alignan
t le texte verticalement. L'arrive d'un grand nombre de caractres Unicode dans les
fichiers textes peut questionner ce concept.
Enfin, et de manire plus anecdotique, le propos d'un fichier texte peut tre dtourn p
our contenir une image, c'est ce qu'on appelle l'art ASCII :
(\___/)
(=*.*=)
(")___(")

(*) (*)
(_)
(+) (+)
(_) (_)

\ /
{^o^}
(| . |)
(_) (_)

Cet art ncessite toutefois que tous les caractres affichs aient la mme largeur.
Cette technologie a notamment t utilise pour spcifier des protocoles de transfert de
fichier.
Utilisation de l'art-ASCII comme lment de spcification du FILE TRANSFER PROTOCOL RFC
765; anne 1980:
------------|/---------\|
|| User ||
-------||Interface|<--->| User |
|\----:----/|
----------------|
V
|
|/------\| FTP Commands |/---------\|
||Server|<---------------->| User ||
|| PI || FTP Replies ||
PI ||
|\--:---/|
|\----:----/|
| V
|
|
V
|
-------|/------\|
Data
|/---------\|
-------| File |<--->|Server|<---------------->| User |<--->| File |
|System|
|| DTP || Connection || DTP ||
|System|
-------|\------/|
|\---------/|
----------------------------Server-FTP

User-FTP

Standardisation et normalisation
Les fichiers textes peuvent connaitre des problmes d'interoprabilit:
Diffrence de traitement des changements de lignes: CR; LF, NL; CR+LF
Prsence ou absence ventuelle du marqueur magique BOM
Diffrence de codage des caractres
Diffrence de traitement des squences d'chappement ventuelles.
Les variations de formats sont notamment lies aux intrts rgionaux: prsence de caractre
s accentus ou d'alphabets particuliers. Les industries souhaitent galement offrir
de nouveaux caractres, en respectant tous les standards avec une rigueur ingale.
Codage des caractres
Article dtaill : Codage des caractres.
Comme tout fichier informatique, un fichier texte contient fondamentalement des
bits. La particularit d'un fichier texte est que l'ensemble du fichier respecte u
n standard de codage de caractres. Il existe de nombreux standards de codage de c

aractres, ce qui peut rendre problmatique la compatibilit des fichiers texte.


Rle de l'ASCII
La dnomination fichier ASCII est souvent confusment (et/ou abusivement) utilise pro
pos de fichiers texte n'utilisant pas le codage de caractres ASCII, soit pour mar
quer une opposition l'EBCDIC, soit pour interdire l'utilisation de langues autre
que l'anglais. Cela tient aussi une histoire complique lie l'influence et aux intrt
s des tats-Unis, pays de langue anglaise, et au fait que actuellement les fichier
s textes sont gnralement compatibles ASCII tout en ne se limitant pas ces caractres
. Ainsi des fichiers textes UTF-8 bnficient d'une certaine interoprabilit avec des l
ogiciels qui ncessitent des fichiers compatibles ASCII, contrairement aux fichier
s textes UTF-16, qui ncessitent des logiciels spcifiquement adapts l'UTF-16.
Rle du BOM
Article dtaill : Byte Order Mark.

Le BOM est une invention du standard Unicode. Il est parfois prsent en dbut de fic
hier pour indiquer visuellement l'encodage d'un fichier (ce code dans un fichier
UTF8 sera visualis en iso8859-1). ce titre, il s'agit d'un Nombre magique au mme
tre que le shebang. Mais il est aussi et surtout utilis pour dterminer l'ordre des
octets (endianness) et cela peut poser des problmes certains logiciels.
Squence d'chappement

Les squences d'chappement peuvent galement tre traites de manire ingales, alors que le
r utilisation est imprative en ISO-2022, conduisant l'apparition de mojibake au s
ens premier du mot.
Notes et rfrences
Notes
Le standard des tats-Unis, l'ASCII inclut des caractres de contrle, tel que l'ch
appement de valeur 27
les standards ISO-2022 sont batis sur ces squences
L'Unicode autorise l'utilisation d'un indicateur dnomm BOM
ASCII 8 bits avec le bit sept, le plus fort, 0
Ce qui pourrait signifier que chaque colonne avait un sens prcis comme en Cob
ol et que la longueur des lignes tait fixe, comme l'cran.
Rfrences
Popular Science Magazine, February 1950, page 96 [archive]
File Transfer Protocol : RFC 959 [archive], Network Working Group, octobre 1
985 (lire en ligne [archive]), page 15
a et b http://www.cairn.info/article.php?ID_ARTICLE=DN_063_0013 [archive]
Barbara Beeton, Asmus Freytag, Murray Sargent III, Unicode Technical Report
25 Unicode Support for Mathematics, http://www.unicode.org/reports/tr25 [a
rchive]
http://www.oqlf.gouv.qc.ca/ressources/bibliotheque/dictionnaires/internet/fi
ches/8383642.html [archive]
Voir aussi
Articles connexes
Fichier binaire
diteur de texte
Format de fichier
Fichier
Portail de linformatique Portail de linformatique Portail de lcriture Portail de
lcriture