このキーワード
友達に教える
URLをコピー

ウェイバックマシンとは?

Wayback Machine


【URL】
公式ウェブサイト
【タイプ】
アーカイブ
【運営者】
インターネットアーカイブ
アレクサ
ランキング

253 (2019年2月)
【登録】
任意
【設立日】
2001年10月24日 (2001-10-24)
【現状】
現行
【プログラミング言語】
Java, Python

Wayback Machine(ウェイバックマシン)とはインターネット上のWorld Wide Webやその他情報を扱うデジタルアーカイブである。アメリカ合衆国カリフォルニア州サンフランシスコにある非営利団体インターネットアーカイブ2001年にサービスを開始した。

歴史

2001年、インターネットアーカイブの創設者であるブリュースター・ケールブルース・ギリアットがウェブサイトのコンテンツが閉鎖やサイトリニューアルなどで消失する問題に対処するために立ち上げた。このサービスでユーザーは「three dimensional index」と呼ばれる時間別のウェブページアーカイブを閲覧することができる。ケールとギリアットはインターネットの全てをアーカイブすることと「全ての知識へのユニバーサルアクセス」を提供することを目標にWayback Machineを開発した。

「Wayback Machine」の名はアニメーション作品「ロッキー・アンド・ブルウィンクル」に登場するキャラクターのミスター・ピーボディとシャーマンが使用する「WABACマシン」(WABACはウェイバックと発音)というタイムトラベルマシンが由来である。シリーズ作品の1つである「Peabody's Improbable History」では日常的にWABACマシンを使って度々有名な歴史上の出来事を目の当たりにするだけでなく直接的に関与し改変したりしている。

ウェブページのキャッシュをアーカイブする作業は5年後に一般公開することを目標に1996年から始まっている。 1996年から2001年まで、集められた情報は不完全ながらデータベースとしてデジタルテープで保存されていて、ケールは研究者や科学者がアクセスできるようにしていた。アーカイブが5周年を迎えた2001年に一般公開を迎え、カリフォルニア大学バークレー校にて記念式典が行われた。サービス開始時点で既にアーカイブページが10億ページ以上に及んでいた。

データはインターネットアーカイブが所有するLinuxノードの大規模クラスタに保存されているが、時折ウェブページに再アクセスし新しいバージョンをアーカイブしている(下部の技術的詳細参照)。また、Wayback Machine側がウェブサイトを「クロール」して保存できる場合に手動で検索ボックスにウェブサイトのURLを入力してキャプチャーすることができる。

技術的詳細

ウェブをクロールし、一般にアクセスできるWorld Wide Webページの全て、Gopherヒエラルキー、ネットニュース(Usenet)掲示板システム、ダウンロード可能なソフトウェアを収集するために開発されたソフトウェアが「クローラー」である。「クローラー」によって収集された情報はインターネット上にある情報が全て含まれているわけではなく公開者によって制限されているかアクセスできないデータベースに保存されているデータがある。部分的にキャッシュされたウェブサイトの矛盾を解決するために、2005年にインターネットアーカイブがArchive-It.orgという機関やコンテンツ制作者がデジタルコンテンツコレクションを収集して保存しデジタルアーカイブを作成するシステムを開発した。

クロールは様々なソースで構築されていて一部は第三者から移入されたものやアーカイブによって内部生成されたものもある。例として、アルフレッド・P・スローン財団アレクサ・インターネットが構築したクロールやアメリカ国立公文書記録管理局インターネット・メモリー財団の代理としてインターネットアーカイブが運用しているクロールや、コモン・クロールのミラーがある。2010年より「Worldwide Web Crawls」が作動していて世界中のウェブをキャプチャーしている。

スナップショットの取得頻度はウェブサイトによって異なっていて、「Worldwide Web Crawls」内のウェブサイトはクロール毎に一回アーカイブされたサイトがある「クロールリスト」に含まれている。例として、「Wide Crawl Number 13」は2015年1月9日に始まり、2016年7月11日に完成した。しかし、複数のクロールがある時点で同時進行していることがあり、また特定のサイトが複数のクロールリストに含まれるため、サイトのクロール頻度が大きく異なることが多い。

ストレージ容量と成長

長年に渡る技術発展のように、Wayback Machineのストレージ容量は増大している。一般公開から2年後の2003年時点で、Wayback Machineの容量は月に12テラバイト増加している。データはインターネットアーカイブ職員がカスタムデザインしたPetaBoxラックシステムに保存されている。最初の100テラバイトのラックは2004年6月に本格稼働したが、間もなくさらなる容量のストレージが必要になることが判明した。

2009年にインターネットアーカイブは自身のカスタマイズしたストレージアーキテクチャをSun Open Storageに移行し、サン・マイクロシステムズのカリフォルニアキャンパスにあるSun Modular Datacenterの新たなデータセンターで管理することになった。2009年時点で、Wayback Machineは約3ペタバイトのデータで構成されていて、毎月100テラバイトの割合で増加していた。

2011年、インターフェイスやアーカイブされたコンテンツの索引が更新されたWayback Machineの新しいかつ改善されたバージョンの公開テストが行われた。同年3月、Wayback Machineフォーラムにて「Wayback Machine新バージョンのベータ版は2010年に全てのクロールされたデータのインデックスが更新されより完全なものとなり、定期的に更新を続けている。古いWayback Machineには2008年になっても僅かなデータしかなく、これ以上インデックスを更新する予定もなく、今年運用終了する予定である。」と発表された。また2011年、インターネットアーカイブは6組のPetaBoxラックを導入したことで、Wayback Machineのストレージ容量は700テラバイト増加した。

2013年1月、URLが2,400億に達したと発表した。同年10月、ユーザーがURLを入力するだけでウェブサイトをアーカイブできる「Save a Page」機能を発表したが、この機能は悪意あるバイナリをダウンロードさせる手口に悪用される脅威となった。

2014年12月時点で、Wayback Machineはウェブページが4,350億に及びデータ容量が約9ペタバイトとなり、週で20テラバイト増える割合になった。

2016年7月、データ容量が約15ペタバイトに達したと発表した。

2018年9月、データ容量が25ペタバイト以上に達した。

成長

2013年10月から2015年3月の間、アレクサの全世界ランクは163から208に推移している。

Wayback Machineの成長
Wayback Machineの年別 アーカイブページ数 (10億)
2005
40

2008
85

2012
150

2013
373

2014
400

2015
452

ウェブサイト除外規定

歴史的に、Wayback MachineはRobots Exclusion Standard (robots.txt)の設定でウェブサイトをクロールできるかできないか、既にクロールされているか、そのウェブサイトのアーカイブが一般向けに閲覧できるかを判断している。ウェブサイト管理者は任意でrobots.txtを使ってWayback Machineをオプトアウトするか設定できる。robots.txtの設定を遡及的に適用していて、もしインターネットアーカイブをブロックしている場合、そのドメインから過去にアーカイブされたページも直ちに利用できなくなる。加えて、インターネットアーカイブは「時々ウェブサイト管理者が、我々に直接連絡したり、サイトのクロールやアーカイブを止めるように求めることがあり、この要求に我々は従っている。」と声明している。さらに、「インターネットアーカイブは自身の資料をコレクションに追加することを望まない人のウェブサイトやその他インターネットドキュメントを保存したり提供することは考えていない。」とも述べている。

Oakland Archiveの規定

Waybackの遡及的除外規定は2002年にカリフォルニア大学バークレー校の情報管理学部が出した、ウェブサイト管理者がサイトのアーカイブへのアクセスを阻止する権利について書かれている「Recommendations for Managing Removal Requests and Preserving Archival Integrity」の一部に基づいている。Waybackは高額訴訟を避けるためにこの規定を遵守している。

しかし、2017年にWaybackの遡及的除外規定が緩和され、アメリカ合衆国の政府や軍のウェブサイト両方のrobots.txtの設定に従わずクロールを行いウェブページを閲覧できるようにした。2017年4月時点で、robots.txtの無視は拡大し米国政府のウェブサイトに留まらなくなっている。

利用

一般向けに利用開始された2001年以降、Wayback Machineによるデータの収集と保存方法やアーカイブにある現行のページに関して学者によって研究されている。2013年時点で、Wayback Machineに関する論文は約350件ありほとんどは情報技術、図書館科学、社会科学の分野で著されている。社会科学学者は1990年代から現在までの間のウェブサイト開発が企業の成長に与えた影響を分析するためにWayback Machineを活用している。

Wayback Machineがページをアーカイブした時、通常ほとんどのハイパーリンクが収集されておりネットの不安定性さが原因で壊れている可能性があってもそれらのリンクは保持される。インドの研究者はオンライン学術出版のハイパーリンクを保存するためのWayback Machineの能力の有効性を研究していて、実際保存されていたのはほぼ半分という結果を得た。

ジャーナリストも削除されたウェブサイトや日にちの経った報道記事を閲覧したりウェブサイトコンテンツに変えるためにWayback Machineを使用している。得られたコンテンツは政治家に説明責任を求め、論争の場での嘘を暴くことに活用されている。2014年、ウクライナからの分離独立を目指す組織のトップであるイゴール・ストレルコフは自身のソーシャルメディアページでの投稿で、実際は民間のマレーシア航空機だったことが判明する前にウクライナ軍機と疑われる軍用機を自軍が撃墜したことを自慢していたものの、後にその投稿を削除しウクライナ軍が撃墜したと非難したがその削除した投稿がアーカイブに残っていた。2017年、ホワイトハウスのウェブサイトから気候変動に関する全ての参照文献が削除されたことがArchive.orgの閲覧を通して発覚しこれがredditで議論になったことが科学のための行進の原因となった。「科学者はワシントンでデモを起こす必要がある。」というユーザーのレスポンスがあった。

制限

Wayback Machineは多機能であるがいくつかの制限も存在する。2014年、ウェブサイトがクロールされてWayback Machineで閲覧できるようになるまで6ヶ月ものタイムラグがあった。2018年時点ではタイムラグは3時間から10時間である。Wayback Machineは「歴史的なGoogle」ではなくユーザーがウェブサイトを閲覧するためにはURLを把握する必要がある。

またWayback Machineはウェブクローラーの制限により常に作成されたウェブページが全て収録されるわけではない上、FlashプラットフォームやJavaScriptで書かれたフォームといったインタラクティブ機能はホストウェブサイトとの対話が必要なため完全にアーカイブできない。ウェブクローラーはHTML(またその派生の一種)でコードされていないものを取り出すのが困難なため結果的にハイパーリンクが壊れたり画像が失われることも多い。さらに、ウェブクローラーは他のどのサイトからもリンクされていない「孤立ページ」をアーカイブすることもできない。Wayback Machineの運用を定めた特定の規則によって設定されているハイパーリンクの深さ制限により全てのページの全ハイパーリンクをアーカイブすることもできない。

一部の管理者は自身のウェブサイトにrobot.txtというファイルを置くことでWayback Machineが発見しアーカイブすることを防いでいる。さらに、ウェブサイト管理者はインターネットアーカイブに直接問い合わせたりアーカイブからのページの削除を求めることもできる。

法的根拠

民事訴訟

Netbula LLC v. Chordiant Software Inc.

2009年の訴訟である「Netbula, LLC v. Chordiant Software Inc.」では被告のChordiantはNetbulaにWayback Machineが遡ってNetbulaのサイトのアーカイブページの過去版へのアクセスを不能にしているとしてウェブサイトに置かれたrobots.txtの強制的な撤去を求めた。そのページにはChordiantがこの訴訟で有利になる材料があると考えていた。

Netbulaは自社のウェブサイトを改ざんしようとしているとして申立に反対し、インターネットアーカイブを直接呼び出さなければならないと主張した。インターネットアーカイブの職員はChordiantの申立を支持する意見書を提出したが、「著しい負担や費用、業務の中断無し」に他の手段でウェブページを作成することはできないとも述べている。

カリフォルニア州北地区サンノゼ管区のハワード・ロイド判事はNetbulaの申立は退けたものの、ChordiantにNetbulaが求めるアーカイブページにアクセスできるように一時的にrobots.txtの無効化を求めた。

ポーランド・テレビ

2004年10月の訴訟である、「Telewizja Polska USA, Inc. v. Echostar Satellite」, No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)は、訴訟の当事者がWayback Machineのアーカイブを有効な証拠の典拠とした初めての裁判とされている。Telewizja PolskaはTVPポロニアのプロバイダでエコースターディッシュ・ネットワークを運営している。裁判の手続きの前に、エコースターはTelewizja Polskaウェブサイトの過去のコンテンツの証拠になるWayback Machineのスナップショットを提出しようとしたが、Telewizja Polskaは伝聞証拠禁止の原則や認証されていない典拠であることを理由にスナップショットを採用しないように予備的申し立てを行ったが、アランダー・キーズ判事はTelewizja Polskaによる伝聞証拠禁止の原則の主張を退け、TVPの裁判での証拠としての除外を求める予備的申し立てを認めなかった。

特許法

先行技術の源としてのインターネット参照

いくつかの追加要件(例として記録保管者の正式な声明を提供)が満たされていることを条件に、米国特許商標庁欧州特許庁は提供されたウェブページが公にアクセスできていたことを示す証拠となるインターネットアーカイブからのデータ印を承認している。これらの日付は例として特許出願審査で、ウェブページが先行技術として利用可能かどうかを決定するのに活用される。

実用性の制限

ウェブサイトのアーカイブには技術的制限があり、その結果として、訴訟相手がウェブサイトのアーカイブによってもたらされた結果を悪用することがある。この問題は基礎となるリンクが公開されていない故にエラーを含んでいる可能性がある場合において、ウェブページのスクリーンショットが問題、回答や専門家の証人の報告として提出してしまうことで悪化することもある。例として、Wayback Machineなどのアーカイブはフォームに書き込みしないゆえに、アーカイブにおいて非RESTful電子商取引データベースは含まれない。

法的地位

欧州では、Wayback Machineは著作権法に違反する可能性があると言われている。コンテンツの公開や複製を決めることができるのはそのコンテンツの作成者のみであり、インターネットアーカイブは作成者から削除要求が来たら削除しなければならないとされる。Wayback Machineの除外規定は公式サイトのFAQページに書かれている。

アーカイブされたコンテンツの法的問題

Wayback Machineのアーカイブ活動に関してインターネットアーカイブに対する訴訟が数多く起こされている。

サイエントロジー

サイエントロジーとインターネット」も参照

2002年後半、インターネットアーカイブはWayback Machineから新興宗教 サイエントロジーを批判する複数のサイトを削除した。この時サイト所有者の要求により削除した旨のエラーメッセージが表示されたが、その後実際に削除を要求したのはサイエントロジー教会 (en) の弁護士でありサイト所有者は削除を望んでいなかったことが明らかになった。

Healthcare Advocates, Inc.

2003年、Harding Earley Follmer & FraileyはWayback Machineを活用して商標問題からクライアントを弁護した。弁護士は数年前のウェブサイトの内容によって原告の主張は無効であることを論証することに成功した。原告のHealthcare Advocatesはデジタルミレニアム著作権法コンピュータ犯罪取締法違反を含む著作権侵害を糾弾するために申し立ての相手にインターネットアーカイブを含む修正を申告した。また、Healthcare Advocatesは自身のウェブサイトにrobots.txtを導入して以降、最初の訴訟が提起された後もインターネットアーカイブはWayback Machineから自身のウェブサイトの過去のコピーを全て削除するべきなのに一部は未だに閲覧可能であると主張した。この訴訟は法廷外で解決していて、その後Wayback Machineで問題が修正された。

スザンヌ・シェル

活動家のスザンヌ・シェルは2005年12月、1999年から2004年まで自身のウェブサイトの profane-justice.org をアーカイブしていたとして10万ドルの賠償を求めインターネットアーカイブを提訴した。インターネットアーカイブは2006年1月20日、カリフォルニア北部地区連邦地方裁判所にシェルの著作権を侵害していないという判決を求める確認訴訟を起こした。これに対してシェルは自身の利用規約に違反していると主張する形でインターネットアーカイブを反訴した。2007年2月13日、コロラド州連邦地方裁判所裁判官は契約違反を除き全ての反訴を退けた。インターネットアーカイブはコピー行為により著作権侵害が生じたというシェルの主張を退けることは望まなかった。

2007年4月25日、インターネットアーカイブとスザンヌ・シェルは共同で和解を発表した。インターネットアーカイブは「…自身のウェブコンテンツをアーカイブされたくない人の資料をWayback Machineに入れようとは考えていない。我々はシェル氏が自身のウェブサイトに関する有効かつ法的効力のある著作権を有することを認識しており、Wayback Machineに彼女のウェブサイトのコンテンツを収集したことによって訴訟になってしまったことを遺憾に思う。」と、シェルは「私はインターネットアーカイブの目標の歴史的価値に敬意を表しており、その目標を阻害したり損害を与えるつもりはなかった。」と述べた。

検閲とその他の問題

Archive.orgは現在中国でブロックされている。暗号化されたHTTPSプロトコルに対応した後、2015年にインターネットアーカイブはロシア全域でブロックされた

Library Freedom Projectのアリソン・マクリーナ長官は「図書館員は個人のプライバシーは重視しているものの、検閲には強く反対している。」と述べている。

他の脅威には自然災害、アーカイブ内容の変更(サイバー攻撃バックアップ)、欠陥のある著作権法、サイトのユーザーに対する監視がある。

ケヴィン・ヴォーンは「我々の技術的文明に継続性がある場合」に「何も手を加えられていないデータの多くが検索可能」なら「何もない」世代の長期利用において有効な方法で生き残れると考えるとしている。

インターネットアーカイブには、長期的なインフラストラクチャが無くてもデータが消失する前に熱心にキャプチャーするために長期間構築し続けていると記述されているとされる。

脚注

出典

  1. ^ "Archive.org Traffic, Demographics and Competitors - Alexa". www.alexa.com. 2019年2月4日閲覧
  2. ^ "WayBackMachine.org WHOIS, DNS, & Domain Info – DomainTools". WHOIS. 2016年3月13日閲覧
  3. ^ "InternetArchive.org WHOIS, DNS, & Domain Info – DomainTools". WHOIS. 2016年3月13日閲覧
  4. ^ Notess, Greg R. (March–April 2002). “The Wayback Machine: The Web's Archive”. Online 26: 59–61.
  5. ^ “The Wayback Machine”, Frequently Asked Questions, https://archive.org/about/faqs.php#The_Wayback_Machine 2018年9月18日閲覧。
  6. ^ "20,000 Hard Drives on a Mission | Internet Archive Blogs". blog.archive.org (英語). 2018年10月20日時点のオリジナルよりアーカイブ。2018年10月15日閲覧
  7. ^ Green, Heather (2002年2月28日). “A Library as Big as the World”. BusinessWeek. http://www.businessweek.com/technology/content/feb2002/tc20020228_1080.htm
  8. ^ Tong, Judy (2002年9月8日). “Responsible Party – Brewster Kahle; A Library Of the Web, On the Web”. New York Times. オリジナルの2011年2月20日時点におけるアーカイブ。. https://web.archive.org/web/20110220181725/http://www.nytimes.com/2002/09/08/business/responsible-party-brewster-kahle-a-library-of-the-web-on-the-web.html 2011年8月15日閲覧。
  9. ^ Cook, John (2001年11月1日). “Web site takes you way back in Internet history”. Seattle Post-Intelligencer. オリジナルの2014年8月12日時点におけるアーカイブ。. https://web.archive.org/web/20140812205508/http://www.seattlepi.com/news/article/Web-site-takes-you-way-back-in-Internet-history-1070534.php 2011年8月15日閲覧。
  10. ^ “Wayback Goes Way Back on Web”. Wired. (October 28, 2001). オリジナルのOctober 16, 2017時点におけるアーカイブ。. https://web.archive.org/web/20171016225914/https://www.wired.com/2001/10/wayback-goes-way-back-on-web/ 2017年10月16日閲覧。.
  11. ^ Arora, Sanjay K.; Li, Yin; Youtie, Jan; Shapira, Philip (May 5, 2015). “Using the wayback machine to mine websites in the social sciences: A methodological resource” (英語). Journal of the Association for Information Science and Technology 67 (8): 1904–1915. doi:10.1002/asi.23503. ISSN 2330-1635.
  12. ^ Kalev Leetaru (January 28, 2016). "The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web". Forbes. 2017年10月16日時点のオリジナルよりアーカイブ。2017年10月16日閲覧
  13. ^ Kahle, Brewster. "Archiving the Internet". Scientific American – March 1997 Issue. 2012年4月3日時点のオリジナルよりアーカイブ。2011年8月19日閲覧
  14. ^ Jeff Kaplan (October 27, 2014). "Archive-It: Crawling the Web Together". Internet Archive Blogs. 2017年10月12日時点のオリジナルよりアーカイブ。2017年10月16日閲覧
  15. ^ "Worldwide Web Crawls". Internet Archive. 2017年10月19日時点のオリジナルよりアーカイブ。2017年10月16日閲覧
  16. ^ "Wide Crawl Number 13". Internet Archive. 2017年10月19日時点のオリジナルよりアーカイブ。2017年10月16日閲覧
  17. ^ "Internet Archive: Petabox". archive.org (英語). 2018年10月25日閲覧
  18. ^ Kanellos, Michael (2005年7月29日). “Big storage on the cheap”. CNET News.com. オリジナルの2007年4月3日時点におけるアーカイブ。. https://web.archive.org/web/20070403030705/http://news.zdnet.com/2100-9584_22-5808754.html 2007年7月29日閲覧。
  19. ^ "Internet Archive and Sun Microsystems Create Living History of the Internet". サン・マイクロシステムズ. March 25, 2009. 2009年3月26日時点のオリジナルよりアーカイブ。2009年3月27日閲覧
  20. ^ Mearian, Lucas (2009年3月19日). “Internet Archive to unveil massive Wayback Machine data center”. Computerworld.com. http://www.computerworld.com/action/article.do?command=viewArticleBasic&taxonomyName=hardware&articleId=9130081&taxonomyId=12&intsrc=kc_top 2009年3月22日閲覧。
  21. ^ "Updated Wayback Machine in Beta Testing". Archive.org. 2011年8月23日時点のオリジナルよりアーカイブ。2011年8月19日閲覧
  22. ^ "Beta Wayback Machine, in forum". Archive.org. 2014年4月17日時点のオリジナルよりアーカイブ。2014年4月16日閲覧
  23. ^ ・・・・・・・・・・・・・・・・・・
出典:wikipedia
2020/03/15 05:26

HAPPY Wikipedia

あなたの考える「ウェイバックマシン」の意味を投稿しよう
「ウェイバックマシン」のコンテンツはまだ投稿されていません。
全部読む・投稿 

ウェイバックマシンスレッド一覧

・・・・・・・・・・・・・・・・・・
「ウェイバックマシン」のスレッドを作成する
ウェイバックマシンの」
友達を探す
掲示板を探す
このページ
友達に教える
URLをコピー

注目のキーワード

錦織圭/北島康介/2014_FIFAワールドカップ・アジア予選/サッカー日本女子代表/消費税/東京スカイツリー/ダルビッシュ有/イチロー/香川真司/野田内閣/復興庁/石川遼/HKT48/AKB48/ワールド・ベースボール・クラシック日本代表/黒田博樹/尖閣諸島/バレンタインデー/ONE_PIECE

キーワードで探す

 
友達を探す
掲示板を探す
ハッピーWiki
ハッピーメール
ハッピーランド
HAPPY NEWS
2010Happy Mail