Internet Archive

37° 46′ 56.3″ N 122° 28′ 17.65″ O / 37.782306, -122.4715694

Pour les articles homonymes, voir IA.

Photo prise à la Bibliotheca Alexandrina : elle contient une copie des documents de l’Internet Archive.

Serveurs de l'Internet Archive.

L’Internet Archive, ou IA est un organisme à but non lucratif consacré à l’archivage du Web et situé dans le Presidio de San Francisco, en Californie. Le projet sert aussi de bibliothèque numérique. Ces archives électroniques sont constituées de clichés instantanés (copie de pages prises à différents moments) d’Internet, de logiciels, de films, de livres et d’enregistrements audio.

Pour assurer la stabilité et la sécurité des données archivées, un site miroir fonctionnel est conservé à la Bibliotheca Alexandrina^[1] en Égypte. L’IA met gratuitement ses collections à la disposition des chercheurs, historiens et universitaires. Elle est membre de l’American Library Association et est officiellement reconnue comme bibliothèque par l’État de Californie^[2].

Le robot d'indexation utilisé par l'IA est Heritrix, un logiciel libre. Le logiciel de numérisation de livres, libre également, est Scribe^[3].

Histoire

L'Internet Archive fut fondée en 1996 par Brewster Kahle. En raison de leurs objectifs — la préservation de la connaissance humaine et l'accessibilité des collections à tous —, les fondateurs de l'IA comparent ce projet à celui plus ancien de la Bibliothèque d'Alexandrie.

Wayback Machine

La wayback machine (en)(littéralement « la machine à revenir en arrière ») est la partie des clichés du Web de l'Internet Archive. Wayback Machine a été créé par Brewster Kahle^[4] afin de stocker et indexer tout ce qui se trouve sur le web. La Wayback Machine est mise à jour à partir du contenu d'Alexa Internet. Ce service permet aux utilisateurs de voir les versions archivées de pages Web à travers le temps : c'est l' « index à trois dimensions ».

Les clichés sont disponibles de 6 à 12 mois après leur capture. La fréquence des instantanés est variable, toutes les mises à jour de sites Web ne sont pas enregistrées, et des intervalles de plusieurs semaines peuvent être observés (voir par exemple les clichés pour le journal Le Monde).

En 2006, la Wayback Machine contenait près de 2 petaoctets de données. Le volume augmente à un rythme de 20 teraoctets par mois, soit une augmentation de deux tiers par rapport aux 12 téraoctets par mois qui étaient le taux de croissance en 2003. Cette croissance est supérieure à la quantité de texte contenue dans les plus importantes bibliothèques du monde, notamment la Bibliothèque du Congrès. En 2009, la Wayback Machine contenait près de 3 pétaoctets de données et son augmentation était de 100 téraoctets par mois. Les données sont archivées dans des systèmes fabriqués par Capricorne Technologies, des Petabox racks.

L'appellation « Wayback Machine » renvoie à des épisodes du The Rocky and Bullwinkle Show, où M. Peabody, un chien à l'air professoral et son assistant Sherman (un animal de compagnie humain), utilisent une machine à remonter le temps appelée « WABAC Machine » pour décrire des évènements historiques célèbres^[5].

En 2015, la Russie aurait par erreur bloqué l'intégralité du site Wayback Machine^[6].

Archive-It

Les utilisateurs désireux d'archiver en permanence et immédiatement leurs données peuvent utiliser, moyennant un abonnement, le service Archive-It^[7]. Les données recueillies sont périodiquement indexées par la Wayback Machine. En décembre 2007, ce service avait créé plus de 230 millions d'URL pour 466 collections publiques, y compris des organismes gouvernementaux, des universités et des institutions culturelles.

Exemple d'organismes ou institutions participant à Archive-It :

Electronic Literature Organization,
les Archives d'État de Caroline du Nord,
le Texas State Library and Archives Commission,
l'Université Stanford,
la Bibliothèque nationale australienne,
le Research Libraries Group (RLG).

Collections

En plus des archives Web, l'Internet Archive conserve d'importantes collections de médias numériques qui sont soit du domaine public soit titulaires d'une licence permettant leur redistribution, comme la Licence Creative Commons. Les médias sont organisés en collections par type (images animées, son, texte, etc.) et en sous-collections selon différents critères. Chaque collection principale comprend une sous-collection Open Source, où les apports du public en général peuvent être archivées.

Ses collections comportent^[8] :

456 milliards de versions archivées (snapshots) du World Wide Web et d'Usenet, soit 67 millions de sites web de 37 langues,
1 900 000 films,
2 400 000 d'enregistrements audios,
149 000 concerts,
7 800 000 de livres,
96 000 logiciels,
951 000 images.

Images vidéos

Mis à part les longs métrages, la collection vidéo de l'Internet Archive comprend des actualités, des classiques de la bande dessinée, de la propagande pro et antiguerre et des documents plus éphémères des Archives Prelinger comme des publicités, des films éducatifs et industriels et des collections de films amateurs.

Exemples de collection :

Brickfilm regroupe des films d'animation filmés à l'aide de briques Lego, dont certains sont des reprises de films de long métrage.
Élection 2004 est un espace public et non-partisan dédié au partage du matériel vidéo relatif à l'élection présidentielle américaine de 2004.
Independent News comprend des sous-collections telles que l'Internet Archive World At War competition from 2001. Parmi les plus téléchargés, il y a des vidéos réalisées par des témoins oculaires du tremblement de terre de l'océan Indien en 2004. Le September 11th Television Archive contient les vidéos de tous les grands réseaux de télévision du monde relatif aux attentats du 11 septembre 2001.

Exemple de film français :

Le Voyage dans la Lune de Georges Méliès.

Sons

La collection audio regroupe de la musique, des livres audio, des émissions d'information, des spectacles radiophoniques anciens et une grande variété d'autres fichiers audio. La sous-collection Live Music Archive comprend 40 000 enregistrements de concerts d'artistes indépendants, ainsi que des artistes plus établis et des ensembles musicaux avec des règles moins strictes sur l'enregistrement des concerts tels que le Grateful Dead.

Textes

Cette collection rassemble des textes du Projet Gutenberg, des textes de diverses bibliothèques à travers le monde ainsi qu'une collection de documents et de notes issues de ARPANET. Avec plus de 7 millions de livres, l'Internet Archive est la deuxième plus grosse bibliothèque numérique de livres en libre accès dans le monde après Google Books. Tous les documents numérisés et mis en ligne par les internautes ou les institutions sont océrisés et convertis en fichiers EPUB pour liseuses ou MOBI pour Kindle et jouissent d'un archivage pérenne sur de nombreux serveurs dans le monde (Californie, Egypte, Chine, Pays-Bas, etc.)^[9].

La Bibliothèque Sainte-Geneviève est la première bibliothèque française à participer au projet^[10]. En France, l'École des Ponts ParisTech^[11], l'Institut national de la recherche agronomique^[12] et Sciences Po Paris^[13] y participent également.

Bibliothèque libre

L'Internet Archive est membre de l'Open Content Alliance et exploite l'Open Library, où plus de 200 000 livres numérisés appartenant au domaine public sont consultables en ligne et imprimables^[14]^,^[15]. Le système de numérisation de livres Scribe sert à cette fin^[16].

Controverses

Site de la scientologie

À la fin de l'année 2002, Internet Archive a effacé différents sites critiques à l'égard de la scientologie recensés par la Wayback Machine^[17]. Le message d'erreur indique que c'était à la suite d'une « demande formulée par le propriétaire du site »^[18]. Il a par la suite été précisé que les avocats de l'Église de Scientologie avaient exigé le retrait, sans aucun motif juridique, et que les propriétaires de ces sites ne voulaient pas que leurs pages soient retirées^[19].

Les archives internet comme preuve

Contentieux civil aux États-Unis

Telewizja Polska

En octobre 2004, dans une affaire appelée Telewizja Polska SA vs Echostar Satellite, un juriste tente d'utiliser les archives de la Wayback Machine comme source d'éléments de preuve recevables, probablement pour la première fois.

Telewizja Polska est le fournisseur de TV Polonia et de EchoStar exploitant le Dish Network. Avant le procès, EchoStar a indiqué qu'il avait l'intention d'utiliser des clichés provenant de la Wayback Machine comme preuve du contenu passé du site de Telewizja Polska. Telewizja Polska a déposé une requête in limine pour supprimer les clichés justifiants de ouï-dire et des sources non authentifiés, mais le juge Arlander Keys a rejeté les affirmations de Telewizja Polska et a refusé d'exclure ces éléments de preuve lors du procès^[20]. Toutefois, au moment du procès, le juge de la cour du district, Ronald Guzman, en première instance, a annulé les conclusions du juge Keys, et a conclu que ni l'Internet Archive ni les pages sous-jacentes (c'est-à-dire le site de Telewizja Polska) n'étaient admissibles comme preuve. Le juge Guzman a estimé que l'impression d'une page internet n'était pas une preuve d'authentification de l'information^[21].

Healthcare Advocates, Inc.

En 2003, Healthcare Advocates, Inc. a été accusée dans un procès de violation de marque. La poursuite a tenté d'utiliser du matériel internet archivé accessible via Internet Archive. Après avoir perdu ce procès, la compagnie a tenté de poursuivre Internet Archive pour violation de la DMCA et le Computer Fraud and Abuse Act. Ils ont fait valoir que, puisqu'ils avaient installé un fichier robots.txt sur leur site web, il aurait dû être évité par le robot d'IA^[22]. La première plainte a été déposée le 26 juin 2003, et ils ont ajouté le fichier robots.txt, le 8 juillet 2003, les pages devant être retirées rétroactivement. Le procès s'est réglé à l'amiable^[23].

Robots.txt est utilisé dans le cadre du protocole d'exclusion des robots (Robots Exclusion Standard), une norme d'application volontaire qu'IA applique et qui interdit aux robots d'indexer certaines pages marquées par le créateur comme hors limite. En conséquence, l'IA a supprimé un certain nombre de sites Web qui sont maintenant inaccessibles via la Wayback Machine. Ceci est parfois dû à un nouveau propriétaire qui plaçait un fichier robots.txt interdisant l'indexation du site. Les administrateurs disent travailler sur un système qui permettra l'accès aux archives précédentes tout en excluant les éléments créés après l'ajout du fichier.

En 2006, IA appliquait la règle du Robots.txt rétroactivement. Si un site bloque IA, à l'instar de Healthcare Advocates, toutes les pages précédemment archivées depuis ce domaine sont également supprimées. Dans les cas de sites bloqués, seul le fichier robots.txt est archivé. Cette pratique semble être préjudiciable aux chercheurs accédant à des informations disponibles dans le passé.

Toutefois, IA précise également que « parfois un propriétaire de site Web nous contacte directement et nous demande d'arrêter l'indexation ou l'archivage d'un site. Nous nous conformons à ces demandes. » Ils ont aussi expliqué qu'« Internet Archive n'est pas intéressé par la préservation ou l'offre d'accès à des sites Web ou d'autres documents Internet appartenant à des personnes qui ne voudraient pas que leur matériel soit archivé ».

Loi des brevets

L'Office des brevets aux États-Unis et, sous réserve que des exigences supplémentaires soient remplies (par exemple, fournir une déclaration officielle de l'archiviste), l'Office européen des brevets accepteront une datation d'Internet Archive comme preuve de la publication d'une page Web. Ces dates sont utilisées pour déterminer si une page Web est disponible avant par exemple la date de dépôt d'une demande de brevet.

Droit d'auteur

Grateful Dead

En novembre 2005, le téléchargement gratuit des concerts de Grateful Dead a été supprimé du site. John Perry Barlow a identifié Bob Weir, Mickey Hart et Bill Kreutzmann comme les instigateurs de ce changement^[24]. Le 30 novembre, un post sur le forum de Brewster Kahle a résumé ce qui semble être le compromis atteint entre les membres du groupe. Les concerts live peuvent être téléchargés ou écoutés, et les enregistrements seront disponibles pour écoute seulement. Les concerts ont, depuis, été ajoutés^[25].

Suzanne Shell

Le 12 décembre 2005, la militante Suzanne Shell (en) a réclamé la somme de 100 000 USD pour l'archivage de son site « profane-justice.org » entre 1999 et 2004^[26]. Le 20 janvier 2006, Internet Archive a déposé une action en jugement déclaratoire dans le district du nord de la Californie, demandant au tribunal de juger qu'IA ne violait pas les droits d'auteur de Shell.

Shell a répondu et a déposé une autre plainte contre IA pour l'archivage de son site, elle invoquait la violation de ses conditions de service^[27]. Le 13 février 2007, un juge du district du Colorado a rejeté toutes les demandes, sauf celle de rupture de contrat^[28].

Le 25 avril 2007, IA et Shell ont conjointement annoncé le règlement de leur litige. IA a déclaré : « Internet Archive n'a aucun intérêt à insérer des informations dans la Wayback Machine de personnes qui ne veulent pas voir leurs contenus web archivés. Nous reconnaissons que M^me Shell possède un droit d'auteur valide et applicable dans son site et nous regrettons que l'inscription de son site dans la Wayback Machine ait abouti à ce contentieux. Nous sommes heureux d'avoir cette affaire derrière nous. » Shell a déclaré : « Je respecte l'objectif et la valeur historique d'Internet Archive. Je n'ai jamais eu l'intention d'interférer avec cet objectif ni de causer aucun dommage. »^[29].

Situation du droit d'auteur en Europe

En Europe, la Wayback Machine peut parfois enfreindre les lois sur le droit d'auteur. Seul le créateur peut décider de l'endroit où son contenu est publié ou reproduit, les pages devront être supprimées des archives sur demande du créateur ^[30].

Notes et références

↑ Internet Archive à la nouvelle bibliothèque d’Alexandria.
↑ (en) « Internet Archive officially a library », 2 mai 2007.
↑ (en) Scribe Software.
↑ Judy Tong, « RESPONSIBLE PARTY -- BREWSTER KAHLE; A Library Of the Web, On the Web », The New York Times,‎ 8 septembre 2002 (ISSN 0362-4331, lire en ligne)
↑ (en) Heather Green, A Library as Big as the World, BusinessWeek, 28 février 2002.
↑ « The Wayback Machine, victime de surblocage en Russie » (consulté le 30 juin 2015)
↑ (en) Stefanie Olsen, Preserving the Web one group at a time, CNet News.com, 1^er mai 2006.
↑ « La mémoire du Web est sur Archive.org, qui répertorie quelque 65 millions de sites », Le Monde, 14 novembre 2007.
↑ Mathieu Andro, Emmanuelle Asselin, Marc Maisonneuve (2012), Bibliothèques numériques : logiciels et plateformes, Paris, ADBS.
↑ https://archive.org/details/bibliothequesaintegenevieve
↑ https://archive.org/details/ecole-des-ponts
↑ https://archive.org/details/inra
↑ https://archive.org/details/sciencespo
↑ (en) Antone Gonsalves, Internet Archive Claims Progress Against Google Library Initiative, InformationWeek, 20 décembre 2006.
↑ (en) The Open Library Makes Its Online Debut, Chronicle of Higher Education, The Wired Campus, 9 juillet 2007.
↑ (en) Stefanie Olsen, An open-source rival to Google's book project, CNET News.com, 26 octobre 2005.
↑ (en) Lisa M. Bowman, Net archive silences Scientology critic, CNET News.com, 24 septembre 2002.
↑ Jeff, exclusions from the Wayback Machine, 23 septembre 2002 (l'auteur et la date sont celle du créateur de l'article dans le forum)
↑ (en) Ernest Miller, Sherman, Set the Wayback Machine for Scientology, 24 septembre
↑ Lauren Gelman, Internet Archive’s Web Page Snapshots Held Admissible as Evidence, Packet 2 (3), 17 novembre 2004
↑ (en) Beryl A. Howell, Proving Web History: How to use the Internet Archive, Journal of Internet Law 3-9, février 2006
↑ (en) Jessica Dye, Website Sued for Controversial Trip into Internet Past, EContent, 28 (11): 8-9, 2005
↑ (en) Eric Bangeman, Internet Archive Settles Suit Over Wayback Machine, Ars technica, 31 aout 2006
↑ (en) Jeff Leeds et Jesse Fox Mayshark, Wrath of Deadheads stalls a Web crackdown, International Herald Tribune, 1^er décembre 2005
↑ (en) Brewster Kahle et Matt Vernon, Good News and an Apology: GD on the Internet Archive, Live Music Archive Forum, 1^er décembre 2005
↑ (en) Lewis T. Babcock, Internet Archive v. Shell, Civil Action No. 06cv01726LTBCBS, 13 février 2007
↑ (en) Thomas Claburn, Colorado Woman Sues To Hold Web Crawlers To Contracts, InformationWeek, 16 mars 2007
↑ (en) Martin Samson, Internet Archive v. Suzanne Shell. via Phillips Nizer LLP
↑ Internet Archive and Suzanne Shell Settle Lawsuit, 25 avril 2007
↑ (en) German lawyer about the Wayback Machine in a law paper, Journal of Internet Law: JurPC

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Internet Archive » (voir la liste des auteurs).

Voir aussi

Liens externes

(en) Site officiel
(en) The Wayback Machine

Bibliographie

Aya, S., Arms, W. Y., Walle, L., Kot, B., Mitchell, R., & Dmitriev, P. (2006). A research library based on the historical collections of the Internet Archive. D-Lib magazine, 12(2), 4.
Hackett, S., Parmanto, B., & Zeng, X. (2004, October).Accessibility of Internet websites through time. In ACM SIGACCESS Accessibility and Computing (No. 77-78, pp. 32-39). ACM.
Jaffe, E., & Kirkpatrick, S. (2009, May). Architecture of the internet archive. In Proceedings of SYSTOR 2009: The Israeli Experimental Systems Conference (p. 11). ACM.
Kahle, B. (2012). The internet archive.
McKay, C. (2004). Ephemeral to enduring: the Internet Archive and its role in preserving digital media. Information Technology and Libraries, 23(1), 3 (résumé).
Schwarz, T., Baker, M., Bassi, S., Baumgart, B., Flagg, W., van Ingen, C., ... & Shah, M. (2006, May). Disk failure investigations at the internet archive. In Work-in-Progess session, NASA/IEEE Conference on Mass Storage Systems and Technologies (MSST2006).

Portail des bases de données
Portail d’Internet
Portail sciences de l’information et bibliothèques
Portail de San Francisco et sa région

This article is issued from Wikipédia - version of the Tuesday, June 30, 2015. The text is available under the Creative Commons Attribution/Share Alike but additional terms may apply for the media files.