Académique Documents
Professionnel Documents
Culture Documents
En 1952 un fichier tait utilis pour dsigner l'information enregistre sur une carte p
erfore.
Or il se trouve que les cartes perfores partageaient certaines proprits:
Chaque carte reprsentait une ligne de 80 colonnes (en gnral)
Les programmes (code source) taient crits en assemblant des lignes de textes
Les cartes perfores qui ne contenaient pas de texte taient donc dj diffrentes.
En 1971, le RFC 265 indique qu'un fichier peut tre ASCII, cur d'excutable, ou autre
. Il mentionne notamment l'EBCDIC.
En juillet 1972, le RFC 354, discutant des changes de texte par le protocole rseau
NVT-ASCIIN 4FTP, indique que les fichiers textes sont enregistrs de manires diffre
ntes selon les systmes:
Le PDP-10 enregistre le NVT-ASCII en 7-bits justifis gauche dans des mots de
36 bits;
Le 360's enregistre le texte avec un codage EBCDIC 8-bit;
Multics enregistre le texte avec quatre caractre de neuf bits dans des mots d
e 36 bits;
Il indique donc que pour le bon transfert des textes, il est ncessaire que les de
ux parties effectuent leur part respective de la conversion dans un codage commu
n; il s'agit cette poque de l'ASCII 8 bits, dit NVT.
Cette mme anne, la RFC fait apparatre le besoin d'une unit commune pour transmettre
des donnes binaires entre systmes dont les mots n'ont pas la mme taille, et suggre l
'utilisation de byte de 8 bits, c'est--dire, de ce que l'on appelle aujourd'hui d
es octets, tout en permettant l'utilisation de bytes/mots diffrents si ngoci.
En 1980, le RFC 765 en spcifiant le protocole FTP indique les trois raisons occas
ionnant le transfert d'un fichier : l'impression, l'archivage, et le traitement.
Constatant, que le seul encodage n'est pas une mtainformation suffisante, il spci
fie le reste et notamment les diffrents mcanismes de changement de ligne travers d
es caractres de contrle ou de dfilement de lignes. En page 12, le RFC clarifie que
les fichiers textes sont tout aussi bien des fichiers ASCII que des fichiers EBC
DIC.
En 1985, lors de l'laboration du protocole FTP de transfert de fichier, il a t reco
mmand de considrer comme fichier texte (en anglais "text" files ), deux formats de
fichiers :
les fichiers file structure, o le fichier est considr tre une squence continue de
lignes.
les fichiers record-structure, o le fichier est constitu d'enregistrements sque
ntielsN 5
De mme les types ASCII et EBCDIC ont t accepts comme fichier texte2.
Cette section est vide, insuffisamment dtaille ou incomplte. Votre aide est la bien
venue !
Texte brut
Article dtaill : Texte brut.
Texte brut Unicode (Unicode plain text)
De nos jours, l'Unicode est de plus en plus reconnu comme format de texte brut.
Le standard Unicode dfinit selon ses propres termes ce qu'est le texte brut, sous
le terme de plain text, dans sa version anglaise.
La notion de fichier texte se rapproche donc des proprits que le standard Unicode
attribue au format nomm plain text en langue anglaise et signifiant texte brut.
Gnralits et controverses
La notion de texte brut (plain text) a comme la notion de texte enrichi (fancy t
ext) t introduite par Unicode 3.
La notion de plain text peut tre traduite par texte en clair, pur texte, texte pu
r, ou texte brut 3.
Linux Information Project en donne une vision restrictive.
Format de codage
Si l'encodage est inconnu, un texte brut quelconque est inexploitable.
Texte brut approch en mathmatiques
Alors que les mathmatiques sont un langage international, en tout ou partie, leur
reprsentation informatique a pu tre nglige lors de la cration de diffrents systmes de
codage des caractres. Toutefois, ces symboles ont bnfici d'une forte prise en charge
par l'Unicode 4, offrant de nouvelles perspectives.
Histoire
La notion de texte brut est implicitement assez ancienne puisque vraisemblableme
nt elle remonte sans doute au moins si ce n'est la notion de machine crire, aux p
remiers langages de programmation utilisant cette technologie.
Dans son aspect rseau, elle est consigne dans de nombreux RFC.
Protocole et fichier
L'usage du texte brut peut varier entre protocole et ficher. Ceci peut est gnralem
ent invisible l'utilisateur lorsqu'il copie un texte d'un logiciel un autre.
Dans un protocole, le protocole spcifie gnralement l'encodage utilis, d'une manire ou
d'une autre; la longueur du texte peut ne pas tre limit, en fonction du protocole
.
Un fichier a gnralement une taille limite, il est gnralement admis qu'un systme de fic
hier ne fournit pas d'information sur l'encodage utilis pour encoder un texte bru
t donn. Cette information essentielle est alors dtermine travers un ensemble d'heur
istiques.
Apports et limitations
Le fichier texte est un lment dterminant en ce qu'il offre la possibilit de dcrire de
s codes sources et de faciliter la programmation des ordinateurs.
Toutefois, il souffre de facto de nombreux problme d'interoprabilit.
Apports
Le fichier texte, lorsqu'il apparait apporte la possibilit de permettre un humain
de soumettre un texte au traitement automatique d'une machine. Il offre galement
la possibilit de supprimer et d'ajouter une ligne, et cela ds les cartes perfores.
Cette fonctionnalit a t reprise par des logiciels comme ed ou edlin.
Limitations
Un fichier texte est limit dans sa taille, comme le sont tous les fichiers, par l
e systme de gestion de fichiers.
De plus par convention on limite volontairement le nombre de colonnes. Une conve
ntion commune est ancienne est d'environ 80 ou 132 colonnes. Cela correspondait
aux standards de terminaux physiques aujourd'hui dpasss. Les diteurs modernes saven
t souvent grer des lignes plus longues bien que cela ne soit pas conseill pour des
questions de prsentation.
Le fichier texte peut poser de nombreux problmes d'interoprabilit (pour cause d'enc
odage diffrents) entre pays, entre fournisseurs de logiciels, notamment.
Usage
Les fichiers texte sont utiliss par de nombreux logiciels pour conserver les donne
s de configuration. Ils sont galement utiliss pour contenir les textes crits en lan
gages de programmation. En outre, la plupart des langages de programmation offre
nt des fonctions prdfinies pour manipuler du texte brut, ce qui rend la gestion de
s fichiers textes particulirement accessible.
Le logiciel utilis pour diter un fichier texte est un diteur de texte. Dans le cas
gnral, un traitement de texte ne produit pas des fichiers texte. En effet, un trai
tement de texte n'a pas seulement besoin de manipuler du texte brut, mais galemen
t des informations sur la fonte de caractre utilise, la disposition des caractres d
ans des pages, les styles typographiques, etc. Toutefois, les traitements de tex
te peuvent ouvrir ou sauvegarder un fichier texte, aucune information de mise en
forme n'tant conserve, sauf le cas chant les sauts de ligne.
Un fichier texte peut tre la structure sous-jacente d'un fichier journal5.
Structure et proprits
La structure d'un fichier texte est une squence de lignes. Toutefois, historiquem
ent, chaque caractre est align verticalement, c'est encore le cas aujourd'hui, dan
s un diteur de texte en ligne ou local.
Squence de lignes
Le concept de squence de lignes reste une caractristique forte d'un fichier texte.
Un fichier texte peut simplement contenir du texte dans une langue quelconque. D
ans ce cas, aujourd'hui, il ne respecte plus aucune structure particulire.
Il tait une fois une marchande de foie
qui vendait du foie dans la Ville de Foix.
Elle se dit ma foi c'est la premire fois
que je vends du foie dans la ville de Foix !
using (FileStream stm = new FileStream("logfile.txt", FileMode.Create)) {
return ProcessStuff(stm);
//
}
Un fichier texte peut galement contenir une donne structure qui peut tre analyse par
un logiciel et affiche sous une forme plus volue, par exemple une page web :
<!DOCTYPE html>
<html lang="fr">
<head><title>Page web d'exemple</title></head>
<body>
<p>Ceci est une page web d'exemple.</p>
</body>
</html>
Alignement vertical
Un fichier texte est gnralement rendu visible avec des polices chasse fixe alignan
t le texte verticalement. L'arrive d'un grand nombre de caractres Unicode dans les
fichiers textes peut questionner ce concept.
Enfin, et de manire plus anecdotique, le propos d'un fichier texte peut tre dtourn p
our contenir une image, c'est ce qu'on appelle l'art ASCII :
(\___/)
(=*.*=)
(")___(")
(*) (*)
(_)
(+) (+)
(_) (_)
\ /
{^o^}
(| . |)
(_) (_)
Cet art ncessite toutefois que tous les caractres affichs aient la mme largeur.
Cette technologie a notamment t utilise pour spcifier des protocoles de transfert de
fichier.
Utilisation de l'art-ASCII comme lment de spcification du FILE TRANSFER PROTOCOL RFC
765; anne 1980:
------------|/---------\|
|| User ||
-------||Interface|<--->| User |
|\----:----/|
----------------|
V
|
|/------\| FTP Commands |/---------\|
||Server|<---------------->| User ||
|| PI || FTP Replies ||
PI ||
|\--:---/|
|\----:----/|
| V
|
|
V
|
-------|/------\|
Data
|/---------\|
-------| File |<--->|Server|<---------------->| User |<--->| File |
|System|
|| DTP || Connection || DTP ||
|System|
-------|\------/|
|\---------/|
----------------------------Server-FTP
User-FTP
Standardisation et normalisation
Les fichiers textes peuvent connaitre des problmes d'interoprabilit:
Diffrence de traitement des changements de lignes: CR; LF, NL; CR+LF
Prsence ou absence ventuelle du marqueur magique BOM
Diffrence de codage des caractres
Diffrence de traitement des squences d'chappement ventuelles.
Les variations de formats sont notamment lies aux intrts rgionaux: prsence de caractre
s accentus ou d'alphabets particuliers. Les industries souhaitent galement offrir
de nouveaux caractres, en respectant tous les standards avec une rigueur ingale.
Codage des caractres
Article dtaill : Codage des caractres.
Comme tout fichier informatique, un fichier texte contient fondamentalement des
bits. La particularit d'un fichier texte est que l'ensemble du fichier respecte u
n standard de codage de caractres. Il existe de nombreux standards de codage de c
Le BOM est une invention du standard Unicode. Il est parfois prsent en dbut de fic
hier pour indiquer visuellement l'encodage d'un fichier (ce code dans un fichier
UTF8 sera visualis en iso8859-1). ce titre, il s'agit d'un Nombre magique au mme
tre que le shebang. Mais il est aussi et surtout utilis pour dterminer l'ordre des
octets (endianness) et cela peut poser des problmes certains logiciels.
Squence d'chappement
Les squences d'chappement peuvent galement tre traites de manire ingales, alors que le
r utilisation est imprative en ISO-2022, conduisant l'apparition de mojibake au s
ens premier du mot.
Notes et rfrences
Notes
Le standard des tats-Unis, l'ASCII inclut des caractres de contrle, tel que l'ch
appement de valeur 27
les standards ISO-2022 sont batis sur ces squences
L'Unicode autorise l'utilisation d'un indicateur dnomm BOM
ASCII 8 bits avec le bit sept, le plus fort, 0
Ce qui pourrait signifier que chaque colonne avait un sens prcis comme en Cob
ol et que la longueur des lignes tait fixe, comme l'cran.
Rfrences
Popular Science Magazine, February 1950, page 96 [archive]
File Transfer Protocol : RFC 959 [archive], Network Working Group, octobre 1
985 (lire en ligne [archive]), page 15
a et b http://www.cairn.info/article.php?ID_ARTICLE=DN_063_0013 [archive]
Barbara Beeton, Asmus Freytag, Murray Sargent III, Unicode Technical Report
25 Unicode Support for Mathematics, http://www.unicode.org/reports/tr25 [a
rchive]
http://www.oqlf.gouv.qc.ca/ressources/bibliotheque/dictionnaires/internet/fi
ches/8383642.html [archive]
Voir aussi
Articles connexes
Fichier binaire
diteur de texte
Format de fichier
Fichier
Portail de linformatique Portail de linformatique Portail de lcriture Portail de
lcriture