Compilateur

Cet article ne cite pas suffisamment ses sources (janvier 2009).

Si vous disposez d'ouvrages ou d'articles de rÃ©fÃ©rence ou si vous connaissez des sites web de qualitÃ© traitant du thÃ¨me abordÃ© ici, merci de complÃ©ter l'article en donnant les rÃ©fÃ©rences utiles Ã sa vÃ©rifiabilitÃ© et en les liant Ã la section Â« Notes et rÃ©fÃ©rences Â» (modifier l'article, comment ajouter mes sources ?).

Un compilateur est un programme informatique qui transforme un code source Ã©crit dans un langage de programmation (le langage source) en un autre langage informatique (le langage cible).

Pour qu'il puisse Ãªtre exploitÃ© par la machine, le compilateur traduit le code source, Ã©crit dans un langage de haut niveau d'abstraction, facilement comprÃ©hensible par l'humain, vers un langage de plus bas niveau, un langage d'assemblage ou langage machine. Dans le cas de langage semi-compilÃ© (ou semi-interprÃ©tÃ©), le code source est traduit en un langage intermÃ©diaire, sous forme binaire (code objet ou bytecode), avant d'Ãªtre lui-mÃªme interprÃ©tÃ© ou compilÃ©.

Inversement, un programme qui traduit un langage de bas niveau vers un langage de plus haut niveau est un dÃ©compilateur.

Un compilateur effectue les opÃ©rations suivantes : analyse lexicale, prÃ©-traitement (prÃ©processeur), analyse syntaxique (parsing), analyse sÃ©mantique, gÃ©nÃ©ration de code et optimisation de code.

Quand le programme compilÃ© (code objet) peut Ãªtre exÃ©cutÃ© sur un ordinateur dont le processeur ou le systÃ¨me d'exploitation est diffÃ©rent de celui du compilateur, on parle de compilation croisÃ©e.

La compilation est souvent suivie d'une Ã©tape dâ€™Ã©dition des liens, pour gÃ©nÃ©rer un fichier exÃ©cutable.

On distingue deux options de compilation :

Ahead-of-time (AOT), oÃ¹ il faut compiler le programme avant de lancer l'application : c'est la situation traditionnelle.
Compilation Ã la volÃ©e (Just-in-Time, en abrÃ©gÃ© JIT) : cette facultÃ© est apparue dans les annÃ©es 1980 (par ex. avec Tcl/Tk).

Historique

Les logiciels des premiers ordinateurs Ã©taient Ã©crits en langage assembleur^[1]. Les langages de programmation de plus haut niveau (dans les couches d'abstraction) n'ont Ã©tÃ© inventÃ©s que lorsque les avantages apportÃ©s par la possibilitÃ© de rÃ©utiliser le logiciel sur diffÃ©rents types de processeurs sont devenus plus importants que le coÃ»t de l'Ã©criture d'un compilateur. La capacitÃ© de mÃ©moire trÃ¨s limitÃ©e des premiers ordinateurs a Ã©galement posÃ© plusieurs problÃ¨mes techniques dans le dÃ©veloppement des compilateurs.

Vers la fin des annÃ©es 1950, des langages de programmation indÃ©pendants des machines font pour la premiÃ¨re fois leur apparition. Par la suite, plusieurs compilateurs expÃ©rimentaux sont dÃ©veloppÃ©s. Le premier compilateur, A-0 System (pour le langage A-0) est Ã©crit par Grace Hopper^[2], en 1952. L'Ã©quipe FORTRAN dirigÃ©e par John Backus d'IBM est considÃ©rÃ©e comme ayant dÃ©veloppÃ© le premier compilateur complet^[1], en 1957. COBOL, dÃ©veloppÃ© en 1959 et reprenant largement des idÃ©es de Grace Hopper^[3]^,^[4] est le premier langage Ã Ãªtre compilÃ© sur plusieurs architectures, .

Dans plusieurs domaines d'application, l'idÃ©e d'utiliser un langage de plus haut niveau d'abstraction s'est rapidement rÃ©pandue. Avec l'augmentation des fonctionnalitÃ©s supportÃ©es par les langages de programmation plus rÃ©cents et la complexitÃ© croissante de l'architecture des ordinateurs, les compilateurs se sont de plus en plus complexifiÃ©s.

En 1962, le premier compilateur Â« auto-hÃ©bergÃ© Â» - capable de compiler son propre code source en langage de haut niveau - est crÃ©Ã©, pour le LISP, par Tim Hart et Mike Levin au Massachusetts Institute of Technology (MIT). Ã€ partir des annÃ©es 1970, il est devenu trÃ¨s courant de dÃ©velopper un compilateur dans le langage qu'il doit compiler, faisant du Pascal et du C des langages de dÃ©veloppement trÃ¨s populaires.

Structure et fonctionnement

SchÃ©ma de compilation multi-source multi-cible

La tÃ¢che principale d'un compilateur est de produire un code objet correct qui s'exÃ©cutera sur un ordinateur. La plupart des compilateurs permettent d'optimiser le code, c'est-Ã -dire qu'ils vont chercher Ã amÃ©liorer la vitesse d'exÃ©cution, ou rÃ©duire l'occupation mÃ©moire du programme^[1].

En gÃ©nÃ©ral, le langage source est Â« de plus haut niveau Â» que le langage cible, c'est-Ã -dire qu'il prÃ©sente un niveau d'abstraction supÃ©rieur. De plus, le code source du programme est gÃ©nÃ©ralement rÃ©parti dans plusieurs fichiers.

Un compilateur fonctionne par analyse-synthÃ¨se : au lieu de remplacer chaque construction du langage source par une suite Ã©quivalente de constructions du langage cible, il commence par analyser le texte source pour en construire une reprÃ©sentation intermÃ©diaire qu'il traduit Ã son tour en langage cible.

On sÃ©pare le compilateur en au moins deux parties : une partie avant (ou frontale), parfois appelÃ©e Â« souche Â», qui lit le texte source et produit la reprÃ©sentation intermÃ©diaire ; et une partie arriÃ¨re (ou finale), qui parcourt cette reprÃ©sentation pour produire le texte cible. Dans un compilateur idÃ©al, la partie avant est indÃ©pendante du langage cible, tandis que la partie arriÃ¨re est indÃ©pendante du langage source. Certains compilateurs effectuent des traitements substantiels sur la partie intermÃ©diaire, devenant une partie centrale Ã part entiÃ¨re, indÃ©pendante Ã la fois du langage source et de la machine cible. On peut ainsi Ã©crire des compilateurs pour toute une gamme de langages et d'architectures en partageant la partie centrale, Ã laquelle on attache une partie avant par langage et une partie arriÃ¨re par architecture.

SchÃ©ma d'une chaÃ®ne de compilation classique.

Les Ã©tapes de la compilation incluent :

le prÃ©traitement, nÃ©cessaire pour certains langages comme C, qui prend en charge la substitution de macro et de la compilation conditionnelle.

GÃ©nÃ©ralement, la phase de prÃ©traitement se produit avant l'analyse syntaxique ou sÃ©mantique ; par exemple dans le cas de C, le prÃ©processeur manipule les symboles lexicaux plutÃ´t que des formes syntaxiques.

l'analyse lexicale, qui dÃ©coupe le code source en petits morceaux appelÃ©s jetons (tokens).

Chaque jeton est une unitÃ© atomique unique de la langue (unitÃ©s lexicales ou lexÃ¨mes), par exemple un mot-clÃ©, un identifiant ou un symbole. La syntaxe de jeton est gÃ©nÃ©ralement un langage rÃ©gulier, donc reconnaissable par un automate Ã Ã©tats finis.

Cette phase est aussi appelÃ©e Ã balayage ou lexing ; le logiciel qui effectue une analyse lexicale est appelÃ© un analyseur lexical ou un scanner. Un analyseur lexical pour un langage rÃ©gulier peut Ãªtre gÃ©nÃ©rÃ© par un programme informatique, Ã partir d'une description du langage par des expressions rÃ©guliÃ¨res. Deux gÃ©nÃ©rateurs classiques sont lex et flex.

l'analyse syntaxique implique l'analyse de la sÃ©quence jeton pour identifier la structure syntaxique du programme.

Cette phase s'appuie gÃ©nÃ©ralement sur la construction d'un arbre d'analyse ; on remplace la sÃ©quence linÃ©aire des jetons par une structure en arbre construite selon la grammaire formelle qui dÃ©finit la syntaxe du langage. Par exemple, une condition est toujours suivie d'un test logique (Ã©galitÃ©, comparaisonâ€¦). L'arbre d'analyse est souvent modifiÃ© et amÃ©liorÃ© au fur et Ã mesure de la compilation. Yacc et GNU Bison sont les analyseurs syntaxiques les plus utilisÃ©s.

l'analyse sÃ©mantique est la phase durant laquelle le compilateur ajoute des informations sÃ©mantiques Ã l'arbre d'analyse et construit la table des symboles.

Cette phase vÃ©rifie le type (vÃ©rification des erreurs de type), ou l'objet de liaison (associant variables et rÃ©fÃ©rences de fonction avec leurs dÃ©finitions), ou une tÃ¢che dÃ©finie (toutes les variables locales doivent Ãªtre initialisÃ©es avant utilisation), peut Ã©mettre des avertissements, ou rejeter des programmes incorrects.

L'analyse sÃ©mantique nÃ©cessite habituellement un arbre d'analyse complet, ce qui signifie que cette phase fait suite Ã la phase d'analyse syntaxique, et prÃ©cÃ¨de logiquement la phase de gÃ©nÃ©ration de code ; mais il est possible de replier ces phases en une seule passe.

la transformation du code source en code intermÃ©diaire ;
l'application de techniques d'optimisation sur le code intermÃ©diaire : c'est-Ã -dire rendre le programme Â« meilleur Â» selon son usage (voir infra).
la gÃ©nÃ©ration de code avec l'allocation de registres et la traduction du code intermÃ©diaire en code objet, avec Ã©ventuellement l'insertion de donnÃ©es de dÃ©bogage et d'analyse de l'exÃ©cution ;
et finalement l'Ã©dition des liens.

L'analyse lexicale, syntaxique et sÃ©mantique, le passage par un langage intermÃ©diaire et l'optimisation forment la partie frontale. La gÃ©nÃ©ration de code et l'Ã©dition de liens constituent la partie finale.

Ces diffÃ©rentes Ã©tapes font que les compilateurs sont toujours l'objet de recherches.

Lien avec les interprÃ©teurs

L'implÃ©mentation (rÃ©alisation concrÃ¨te) d'un langage de programmation peut Ãªtre interprÃ©tÃ©e ou compilÃ©e. Cette rÃ©alisation est un compilateur ou un interprÃ©teur, et un langage de programmation peut avoir une implÃ©mentation compilÃ©e, et une autre interprÃ©tÃ©e.

Le problÃ¨me de l'amorÃ§age (bootstrap)

Article dÃ©taillÃ© : Bootstrap (compilateur).

Les premiers compilateurs ont Ã©tÃ© Ã©crits directement en langage assembleur, un langage symbolique Ã©lÃ©mentaire correspondant aux instructions du processeur cible et quelques structures de contrÃ´le lÃ©gÃ¨rement plus Ã©voluÃ©es. Ce langage symbolique doit Ãªtre assemblÃ© (et non compilÃ©) et liÃ© pour obtenir une version exÃ©cutable. En raison de sa simplicitÃ©, un programme simple suffit Ã le convertir en instructions machines.

Les compilateurs actuels sont gÃ©nÃ©ralement Ã©crits dans le langage qu'ils doivent compiler ; par exemple un compilateur C est Ã©crit en C, SmallTalk en SmallTalk, Lisp en Lisp, etc. Dans la rÃ©alisation d'un compilateur, une Ã©tape dÃ©cisive est franchie lorsque le compilateur pour le langage X est suffisamment complet pour se compiler lui-mÃªme : il ne dÃ©pend alors plus d'un autre langage (mÃªme de l'assembleur) pour Ãªtre produit.

Il est complexe de dÃ©tecter un bug de compilateur. Par exemple, si un compilateur C comporte un bug, les programmeurs en langage C auront naturellement tendance Ã mettre en cause leur propre code source, non pas le compilateur. Pire, si ce compilateur buggÃ© (version V1) compile un compilateur (version V2) non buggÃ©, l'exÃ©cutable compilÃ© (par V1) du compilateur V2 pourrait Ãªtre buggÃ©. Pourtant son code source est bon. Le bootstrap oblige donc les programmeurs de compilateurs Ã contourner les bugs des compilateurs existants.

Compilateur simple passe et multi passe

Compilateur multi-passes typique.

La classification des compilateurs par nombre de passes a pour origine le manque de ressources matÃ©rielles des ordinateurs. La compilation est un processus couteux et les premiers ordinateurs n'avaient pas assez de mÃ©moire pour contenir un programme devant faire ce travail. Les compilateurs ont donc Ã©tÃ© divisÃ©s en sous programmes qui font chacun une lecture de la source pour accomplir les diffÃ©rentes phases dâ€™analyse lexicale, d'analyse syntaxique et d'analyse sÃ©mantique.

La capacitÃ© de combiner le tout en un seul passage a Ã©tÃ© considÃ©rÃ©e comme un avantage car elle simplifie la tÃ¢che d'Ã©criture dâ€™un compilateur et il compile gÃ©nÃ©ralement plus rapidement quâ€™un compilateur multi passe. Ainsi, suivant les ressources limitÃ©es des premiers systÃ¨mes, de nombreux langages ont Ã©tÃ© spÃ©cifiquement conÃ§us afin qu'ils puissent Ãªtre compilÃ©s en un seul passage (par exemple, le langage Pascal).

Dans certains cas, la conception d'une fonctionnalitÃ© de langage a besoin d'un compilateur pour effectuer plus d'une passe sur la source. Par exemple, considÃ©rons une dÃ©claration figurant Ã la ligne 20 de la source qui affecte la traduction d'une dÃ©claration figurant Ã la ligne 10. Dans ce cas, la premiÃ¨re passe doit recueillir des renseignements sur les dÃ©clarations figurant aprÃ¨s les dÃ©clarations qu'ils affectent, avec la traduction proprement dite qui sâ€™effectue lors d'un passage ultÃ©rieur.

L'inconvÃ©nient de la compilation en un seul passage est qu'il n'est pas possible d'exÃ©cuter la plupart des optimisations sophistiquÃ©es nÃ©cessaires pour gÃ©nÃ©rer du code de haute qualitÃ©. Il peut Ãªtre difficile de dÃ©nombrer exactement le nombre de passes quâ€™un compilateur optimisant effectue.

Le fractionnement d'un compilateur en petits programmes est une technique utilisÃ©e par les chercheurs intÃ©ressÃ©s Ã produire des compilateurs performants. Prouver la justesse d'une sÃ©rie de petits programmes nÃ©cessite souvent moins d'effort que de prouver la justesse d'un plus grand programme unique Ã©quivalent.

Compilateur de compilateur

Article dÃ©taillÃ© : Compilateur de compilateur.

QualitÃ©

ChaÃ®ne de compilation

La compilation croisÃ©e fait rÃ©fÃ©rence aux chaÃ®nes de compilation capables de traduire un code source en code objet dont l'architecture processeur diffÃ¨re de celle oÃ¹ la compilation est effectuÃ©e. Ces chaÃ®nes sont principalement utilisÃ©s en informatique industrielle et dans les systÃ¨mes embarquÃ©s.

Autres compilations

Byte code ou code octet

Certains compilateurs traduisent un langage source en langage machine virtuel, c'est-Ã -dire en un code (gÃ©nÃ©ralement binaire) exÃ©cutÃ© par une machine virtuelle : un programme Ã©mulant les principales fonctionnalitÃ©s d'un ordinateur. Le portage d'un programme ne requiert ainsi que le portage de la machine virtuelle. C'est le cas du compilateur Java, qui traduit du code Java en bytecode Java (code objet).

Exemples

Si la plupart des compilateurs traduisent un code d'un langage de programmation vers un autre, ce n'est pas le cas de tous les compilateurs. Par exemple, le logiciel LaTeX compile un code Ã©crit dans le langage de formatage de texte LaTeX, pour le convertir en un autre langage de prÃ©sentation, par exemple DVI, HTML, PostScriptâ€¦

Certains compilateurs traduisent, de faÃ§on incrÃ©mentale ou interactive, le programme source (tapÃ© par l'utilisateur) en code machine. Par exemple, certaines implÃ©mentations de Common Lisp (comme SBCL) traduisent un bout de programme en code machine (en mÃ©moire).

Les compilateurs Ã la volÃ©e (Just in time) traduisent une reprÃ©sentation intermÃ©diaire en code machine, de maniÃ¨re progressive.

Voir aussi

GCC est une suite de compilation particuliÃ¨rement connue, beaucoup utilisÃ©e pour les langages C et C++, mais Ã©galement Java ou encore Ada.
Clang est un front-end pour les langages de la famille du C, utilisant le back-end LLVM
GHC, un compilateur pour Haskell
De nombreux autres, pour les mÃªmes langages et pour d'autres

Bibliographie

Alfred Aho, Monica Lam, Ravi Sethi et Jeffrey Ullman (trad. Philippe Deschamp, Bernard Lorho, BenoÃ®t Sagot et FranÃ§ois Thomasset), Compilateurs : principes, techniques et outils [Â« Compilers: Principles, Techniques, and Tools Â»], France, Pearson,â€Ž novembre 2007, 2^e Ã©d. (1^re Ã©d. 1977), 928 p. (ISBN 978-2-7440-7037-2, prÃ©sentation en ligne)
appelÃ© aussi le Dragon Book

Notes

1 2 3 Cf. JÃ©rÃ´me Feldman et Marcel Berger (dir.), Les progrÃ¨s des mathÃ©matiques, Ã©ditions Belin, coll. Â« Pour la Science Â»,â€Ž 1981 (ISBN 2-902918-14-3), Â« Les langages de programmation Â», p. 102-113
â†‘ (en) Susan Ware (dir.), Stacy Braukman et al., Notable American Women: A Biographical Dictionary : Completing the Twentieth Century, vol. 5, Harvard University Press,â€Ž 2005, 768 p. (ISBN 9780674014886, prÃ©sentation en ligne), p. 309-311
â†‘ Vicki Porter Adams, Â« Captain Grace M. Hopper: the Mother of COBOL Â», InfoWorld, vol. 3, n^o 20,â€Ž 5 octobre 1981, p. 33 (ISSN 0199-6649, lire en ligne)
â†‘ Mitch Betts, Â« Grace Hopper, mother of Cobol, dies Â», Computerworld, vol. 26, n^o 1,â€Ž 6 janvier 1992, p. 14 (ISSN 0010-4841, lire en ligne)

Liens externes

(en) Liste de compilateurs gratuits et/ou libres
Cours plutÃ´t complet et contenant des exemples en C/ASM.

Portail de la programmation informatique

This article is issued from WikipÃ©dia - version of the Sunday, May 03, 2015. The text is available under the Creative Commons Attribution/Share Alike but additional terms may apply for the media files.