もう7時か、
2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50 [PR]女性必見!ネットで高収入バイト[PR]  

Internet Archive総合 (web.archive.org) #1

1 :名無しさん@お腹いっぱい。:2007/09/14(金) 21:00:22
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive


〜よく使われるWeb Archiveキャッシュ検索はこちら〜
Internet Archive: Wayback Machine
ttp://www.archive.org/web/web.php
Advanced Search
ttp://web.archive.org/collections/web/advanced.html

Recall(現在は停止404)
ttp://recall.archive.org/
Internet Archiveの110億ページを検索できるサーチエンジン「Recall」
ttp://internet.watch.impress.co.jp/cda/news/2003/09/08/377.html


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります

2 :名無しさん@お腹いっぱい。:2007/09/14(金) 21:01:41
無かったんで立ててみますた(゚∀゚)
何も無くスレを立てるのもアレなんでテソプレみたいなもんも作りました
Web Archiveだけではすぐに話題は尽きてしまいますが
Internet Archiveなどのさまざまな記録も話題に加えれば話題は尽きないと思います 多分


3 :名無しさん@お腹いっぱい。:2007/09/15(土) 02:25:05
5年前に作った俺の恥ずかしい若気の至りサイトを消してくれ

4 :名無しさん@お腹いっぱい。:2007/09/15(土) 05:35:25
>>3
詳しく

5 :名無しさん@お腹いっぱい。:2007/09/15(土) 18:37:31
Recallは日本語使えなかったけど革新的なサービスだった…
再開してくれないもんかねぇ(出来れば日本語対応で)

6 :名無しさん@お腹いっぱい。:2007/09/24(月) 18:03:02
ダウンしてるぞInternet Archive

7 :名無しさん@お腹いっぱい。:2007/09/25(火) 01:38:58
復旧したっぽいね

8 :名無しさん@お腹いっぱい。:2007/10/07(日) 07:12:29
あげ


9 :名無しさん@お腹いっぱい。:2007/10/07(日) 11:58:03
あげてねーだろ
しかし語ることねーな

10 :名無しさん@お腹いっぱい。:2007/10/07(日) 13:28:08
age

11 :名無しさん@お腹いっぱい。:2007/10/13(土) 06:31:46
tgzのキャッシュってダウンロード出来ない?


12 :名無しさん@お腹いっぱい。:2007/10/21(日) 23:15:34
キャッシュは流石に難しい

13 :名無しさん@お腹いっぱい。:2007/11/02(金) 15:00:58
今のところ日本語のページを開くとUnicode固定になっちゃうんだよなぁ…
わざわざエンコードするの面倒だからどうにかしてS-jisに固定できないものだろうか…

14 :名無しさん@お腹いっぱい。:2007/11/12(月) 04:10:40
オミトロンは?

15 :名無しさん@お腹いっぱい。:2007/11/12(月) 10:42:56
おみとろん久しく使ってなかったけど。
Internet Archive開くときだけ使ってみるか。

16 :名無しさん@お腹いっぱい。:2007/11/12(月) 11:30:00
オミトロンのルール誰かplz

17 :名無しさん@お腹いっぱい。:2007/11/12(月) 12:40:01
最近Internetarchiveからソフト類をダウンロードするの
難しくなってないか?
Zipだとか過去手に入った物が手に入らない。

18 :名無しさん@お腹いっぱい。:2007/11/12(月) 12:52:13
>>16
Proxomitron専用Uploaderの「pr0043.txt」
ttp://proxo.hp.infoseek.co.jp/cgi-bin/sn_uploader/2.html?1193422532
フィルタ、リスト公開/8 - Proxomitron等に関するWiki
ttp://abc.s65.xrea.com/prox/wiki/%A5%D5%A5%A3%A5%EB%A5%BF%A1%A2%A5%EA%A5%B9%A5%C8%B8%F8%B3%AB/8/

19 :名無しさん@お腹いっぱい。:2007/11/13(火) 20:19:55
>>17
ネットの発展は「宇宙の膨張と同じ」とまで例えられるくらいだかね
淘汰されちゃうんだろうな
俺的にはlzhアーカイブの加速度的な消失が痛いよ

>>18
作者さん?乙です

20 :名無しさん@お腹いっぱい。:2007/11/13(火) 21:39:36
ひさびさにおみとろん導入してみたよ。
とりあえずInternet Archive の文字化けを直すヘッダフィルタのみ有効にした。
手間が省けていいもんだね。

21 :名無しさん@お腹いっぱい。:2007/11/20(火) 12:27:55
Internet Archiveに繋がらないんだが、
どうなってる?

22 :名無しさん@お腹いっぱい。:2007/11/20(火) 13:35:57
生きてるっぽいけど?

23 :21:2007/11/20(火) 19:05:40
おお、繋がりましたわ。失礼

24 :名無しさん@お腹いっぱい。:2007/11/21(水) 01:49:46
>20

どれどれ俺もやってみよう

25 :名無しさん@お腹いっぱい。:2007/11/28(水) 01:34:39
収得できないのってもう絶対見られない?
時間おけば見られることあるの?

26 :名無しさん@お腹いっぱい。:2007/11/28(水) 07:30:50
1年ぐらいたったら公開されるってどっかに書いてあったよ

27 :名無しさん@お腹いっぱい。:2007/11/28(水) 20:43:12
1年か('A`)

28 :名無しさん@お腹いっぱい。:2007/12/07(金) 20:04:26
落ちてる?

29 :名無しさん@お腹いっぱい。:2007/12/08(土) 22:16:01
うんにゃ

30 :名無しさん@お腹いっぱい。:2007/12/24(月) 02:43:23
テンプレ追加きぼん。

Q. 毎日のようにキャッシュが残っていたサイトなのに
最近のものが何故か無くなっている。
A. Wayback Machine で表示できるのは 6 ヶ月前より古いキャッシュで、
それ以降の分は 6 ヶ月経つまで表示されません。

最近 ttp://www.archive.org/index.php と
ttp://www.archive.org/web/web.php が落ちてることが多いな。
それでも ttp://web.archive.org/web/*/ごにょごにょ
とかやるときちんと動いてる。

31 :名無しさん@お腹いっぱい。:2007/12/24(月) 11:18:19
>>30
おや、1年てのは勘違いか、ルールが変わったのか…

32 :名無しさん@お腹いっぱい。:2007/12/26(水) 20:59:59
同じサイトでも見られるリンクと見られないリンクの違いは何なんだ

33 :名無しさん@お腹いっぱい。:2007/12/27(木) 10:59:11
またダウンしてる?

34 :名無しさん@お腹いっぱい。:2007/12/28(金) 11:16:05
>>32
503エラーもどきじゃない?
何回かクリックすると見れることあるよ

35 :13:2008/01/09(水) 17:52:08 ?2BP(129)
色々あり今までこちらに来れませんでしたが
オミトロンを教えてくださった方 どうもありがとうございました

36 :名無しさん@お腹いっぱい。:2008/01/11(金) 19:56:41
律儀だな〜

37 :名無しさん@お腹いっぱい。:2008/01/14(月) 12:29:41
俺オミトロン設定してるのになぜか文字化けが止まらないな・・・

38 :名無しさん@お腹いっぱい。:2008/01/14(月) 18:33:04
>>37
In してくるヘッダーの text/html; charset=UTF-8 の
charset=UTF-8 を削るだけのフィルタだよ。
一度確認してみたら?

39 :名無しさん@お腹いっぱい。:2008/01/21(月) 14:38:23
ウェブアーカイブというサイトで、
昔消えたサイトを復元できますが、それをされないようにサイトを作ることはできますか?

HPの製作者が消した後なら、
ウェブアーカイブに残らない、なんてことを聞いたこともありますが、
そんなことありえないですよね?
あるいは、文字化けして、どっちみち見れないようなものとして表示される、
とも聞きましたが、それも間違いですよね?


40 :名無しさん@お腹いっぱい。:2008/01/21(月) 20:41:49
>>39
ここに書いてあるとおりにすればいい。
ttp://www.archive.org/about/exclude.php
英語がわからなければ適当にぐぐって。すぐ情報でるから。

文字化けはキャッシュしたページの文字コードを無視して
UTF-8で表示してるだけで正しい文字コードに変えれば見れる。

41 :名無しさん@お腹いっぱい。:2008/01/28(月) 01:39:03
1996年から8500億ものウェブサイトを保存している「Wayback Machine」 - GIGAZINE
http://gigazine.net/index.php?/news/comments/20080127_1996_internet/

42 :名無しさん@お腹いっぱい。:2008/02/01(金) 23:31:08
Robots.txt Query Exclusion.
という文字が出て、ようやく探し当てたページなのですが見る事が出来ません
少し調べたのですが、見れないのです。これは打つ手無しでしょうか。


43 :名無しさん@お腹いっぱい。:2008/02/03(日) 00:23:15
>>42
それはデータをクロールする検索ボットをお断りしますっていうヤツだから無理
というかまともな検索サイトじゃ検索結果にも出ないハズ
もしキャッシュが欲しいならマイナーな検索エンジンやちょっとUGちっくな検索サイトを使った方が出やすいかも

もし晒しても問題無さげサイトなら晒してみ
手伝いくらいならできるかもよ

44 :名無しさん@お腹いっぱい。:2008/02/03(日) 20:19:46
livedooの昔のブログで月別アーカイブの次のページ(2ページ以降)を見たいのですが、
普通にクリックでは表示されないのですが、何とか見る方法はありますか?

45 :44:2008/02/03(日) 21:05:09
続きです。livedoorのブログですが、アドレスの最後がこの様になっていて、
検索しても見られないのです。archives/2006-11.html?p=2

それと、1年以上公開されていたブログで月別アーカイブが約半分程度しか残っていないのですが、
他の月分は今後見る事は不可能でしょうか?

46 :名無しさん@お腹いっぱい。:2008/02/04(月) 01:27:47
まずWeb Archiveは>>30の半年縛りがある
それと何とか見る方法ってのをみんなで探す前提条件がurlを晒すことなんだがOK?
あと有名なとこなら魚拓系サイトって手もあるかも

47 :44:2008/02/04(月) 20:06:16
>>46
魚拓系サイトも見たのですが、トップページのみのリンクでだめでした。
livedoorのブログは、アカウント以降は全て同じで次のページへのリンクが
/archives/2006-11.html?p=2で見られる様になっているのですが、
ページが存在しませんと出てしまいます。
残念ながらurlは晒せないので、もう少し頑張ってみます。アドバイス有り難うございました。

48 :名無しさん@お腹いっぱい。:2008/02/07(木) 14:23:08
ttp://kakuri.sakura.ne.jp/oekaki/

上のお絵かき掲示板のNo.6220-6247の絵を見たいんだけどなんかいい方法ないですかね。
推測するには2007年の6月から5月だと思うんだが。
web archiveじゃあ無理臭い。

49 :名無しさん@お腹いっぱい。:2008/02/07(木) 14:24:05
現行URL?は
ttp://kakuri.sakura.ne.jp/oekakix/
でした

50 :名無しさん@お腹いっぱい。:2008/02/07(木) 16:26:24
web archiveは特定のサイズ以上の画像はクロールしないようにしてるっぽいから無理じゃない?
しかもどう見ても児ポでFBIから睨まれそうなトコだし…



で話は変わるが俺その画像(というかHTMLログ全て)持ってるかも知んない
これ以上はスレ違いだから

・比較的流れの速そうな板の適当な糞スレへ誘導
・50メガ程度うpできるロダ

この2つ用意したら揚げてやんよ

51 :名無しさん@お腹いっぱい。:2008/02/07(木) 17:57:35
ttp://namidame.2ch.net/test/read.cgi/ghard/1201950750/

52 :名無しさん@お腹いっぱい。:2008/02/07(木) 21:16:41
ぽっぽ(弟)に通報します

53 :名無しさん@お腹いっぱい。:2008/03/12(水) 01:56:00
重いー

54 :名無しさん@お腹いっぱい。:2008/03/12(水) 06:17:54
最近どしたってくらい重いんだけど
英語読めないからアナウンス出てるかもわからんし

55 :名無しさん@お腹いっぱい。:2008/03/12(水) 08:09:04
robot.txt置けない環境なんだがメタタグでnoarchive指定しても無意味?

56 :名無しさん@お腹いっぱい。:2008/03/12(水) 09:23:43
最近はGoogleさんですらnoarchiveを無視することがあるしな・・・

57 :名無しさん@お腹いっぱい。:2008/03/17(月) 02:57:00
Internet archiveで拾えないファイルってもう絶望的…?

58 :名無しさん@お腹いっぱい。:2008/03/17(月) 15:07:42
>>55
56に同意でmetaは無意味じゃないが読んでくれないことがある

>>57
ファイル系?HTML系?
もしURL晒せれば微力ながら協力するが

59 :名無しさん@お腹いっぱい。:2008/03/17(月) 20:38:14
>>58
すいません、助かります
ttp://degwin.cool.ne.jp/nanika/download/nekomimi.nar
って言うファイルで、2004年の1月初期まで公開してたっぽいんです

60 :名無しさん@お腹いっぱい。:2008/03/18(火) 17:36:33
>>59
うーん見つかんないねぇ…
も少し情報無い?
あとこれ伺かだと思うんだけどマルチにならないようにここでの質問を正式に打ち切って
伺か系のスレや掲示板・ロダで探した方が良い鴨


61 :名無しさん@お腹いっぱい。:2008/04/02(水) 12:50:45
robots.txt置いて、削除フォームから申請したのに一向に削除されない
恥ずかしいから早く過去を消し去りたいのに・・・

62 :名無しさん@お腹いっぱい。:2008/04/05(土) 00:13:56
     _, ,_
   ( ^ё^) ヤダァ、見ないで!恥ずかしい…
     (つ/ )
      |`(..イ 彡サッ
     しし'

63 :名無しさん@お腹いっぱい。:2008/04/11(金) 15:11:10
魚拓とweb archiveはウェブ社会の癌。

64 :名無しさん@お腹いっぱい。:2008/04/12(土) 22:58:28
>>63
ハゲ黙れ

65 :名無しさん@お腹いっぱい。:2008/04/13(日) 15:59:01
http://rollin.jp.land.to/
上のアップローダーのファイルを保存して新しいところに上げてみたいのですが
Not in Archive.って出てしまうんですが。どうしようもないんですかね?

66 :名無しさん@お腹いっぱい。:2008/04/14(月) 01:48:10
ここって昔のゲームとかもDLできるんですか?
くにおくんシリーズとか。
どなたかやり方を教えてください!

67 :名無しさん@お腹いっぱい。:2008/04/14(月) 08:10:14
日本語でおk

68 :65:2008/04/14(月) 15:54:17
やっぱり無理ですか

69 :名無しさん@お腹いっぱい。:2008/04/15(火) 03:58:57
>>65
ttp://web.archive.org/web/*nr_130/http://rollin.jp.land.to/*
無効のシステムのエラーならまだしも、
Not in archive だけは無理だろ。

70 :名無しさん@お腹いっぱい。:2008/04/17(木) 23:08:24
2ヶ月ぶりぐらいにアーカイブを使ったが、
「ページを表示できません」ばっかりだorz


71 :名無しさん@お腹いっぱい。:2008/04/17(木) 23:15:57
>>70
同じく。一体何がおきてるorz

72 :名無しさん@お腹いっぱい。:2008/04/18(金) 00:43:42
ttp://web.archive.org/web/*/ごにょごにょ

これで出たと思ってもそっから先に進めなくなってるな。
Failed Connectionとか言われる。

73 :名無しさん@お腹いっぱい。:2008/04/18(金) 01:59:46
Not in Archiveって出ても日を改めたら見れたりしたと思うけど
勘違いかな?

74 :名無しさん@お腹いっぱい。:2008/04/29(火) 20:53:14
Path Index Error.が多いな。さっき見たファイルが、もう見れなくなってる。

75 :名無しさん@お腹いっぱい。:2008/04/29(火) 22:43:09
>>74
確かにここの所それが出る頻度が妙に多くなってるな。

76 :名無しさん@お腹いっぱい。:2008/05/02(金) 23:17:10
やはりNot in Archiveはもう見れないのかな?
日をあらためれば見れるという人もいるし希望持ってるんだが保存されてないんだったら無理だよなー
アゲます

77 :名無しさん@お腹いっぱい。:2008/05/03(土) 00:06:52
Not in Archiveって言ってるのだし
その言葉の意味からしても諦めたほうがいいと思う
Failed Connectionならうまくいけば繋がる→繋がれば残ってるかもしれないけど

78 :名無しさん@お腹いっぱい。:2008/05/08(木) 19:23:31
web.archive.org、404きた…

79 :名無しさん@お腹いっぱい。:2008/05/08(木) 19:48:33
滅びてくれると嬉しいのだが、クローラは毎日のように来てるんだぜ?

80 :名無しさん@お腹いっぱい。:2008/05/08(木) 20:28:29
REMOTE_HOST: xcrawl109.alexa.com
HTTP_USER_AGENT: ia_archiver

81 :名無しさん@お腹いっぱい。:2008/05/08(木) 21:08:02
昨日は表示できてたはずなんだが、今日なんかサーバーにつながらなくね?

82 :名無しさん@お腹いっぱい。:2008/05/10(土) 00:50:23
         ,. -─‐- 、
         , '´        ヽ
       /  /ヽ\     ヽ
     /  /   `、 \ ヽ   ゙,
      .i   i     ヽ、`ヽ、 \ ',
     i   !.  ==、  `ヽ、`ヽ、!
     |  l丁 ̄ ̄`i-f´ ̄`ヽ、ヽ !
     |  !.ヽ --‐'  `ー‐一1ヽi
     |  i     i  丶   ! ,'
      !  !    `ー '"   ,' i      ホームページのダウンロードや印刷は禁止します
     i  /ヽ    ー一'  /ヽ、!       アーカイブも禁止します
       V   \ ,、     .// ヽ 、_       法律は糞くらえだ俺が嫌だと言っている
  .r'"´ ̄ |.   /,へっ‐'" /  i  ``'‐- 、
 /  / | / く★へ ,. へ、. l         ヽ
./   ⌒ /     /`)   ヽ/        i

83 :名無しさん@お腹いっぱい。:2008/05/10(土) 01:20:48
うむ

84 :名無しさん@お腹いっぱい。:2008/05/11(日) 23:56:38
ここに保存されてないと過去のホームページを見るのは絶望的なの?
Internet Archiveの様なサイト他にないのかな

85 :名無しさん@お腹いっぱい。:2008/05/12(月) 01:31:45
魚拓は?

86 :名無しさん@お腹いっぱい。:2008/05/12(月) 01:40:36
>>85
無かった、やはり無理だよね

87 :名無しさん@お腹いっぱい。:2008/05/12(月) 06:02:39
URL晒せないの?

88 :名無しさん@お腹いっぱい。:2008/05/20(火) 16:15:22
http://homepage3.nifty.com/〜がURLだからそっから保存されてるを全て根気よく調べようと思ったら20000までしか表示されない
並べ方的にこの後なのに
http://web.archive.org/web/*sr_19981nr_30/http://homepage3.nifty.com/*
こういう仕様なのかな?だいたいのURLはわかります

89 :名無しさん@お腹いっぱい。:2008/05/21(水) 11:32:10
>>88
ttp://web.archive.org/web/*sr_19995nr_1/http://homepage3.nifty.com/*
確かにそういう仕様なのかもな。
URL のページ番号を示す部分が 19999 の次は -1 になってしまう。

あとは、 検索範囲を狭めて根気良くやっていくしかないと思う。
ttp://web.archive.org/web/*/http://homepage3.nifty.com/1*
ttp://web.archive.org/web/*/http://homepage3.nifty.com/2*

90 :名無しさん@お腹いっぱい。:2008/06/01(日) 16:15:15
「Failed Connection」は「接続できませんでした」の意味でしたっけ

91 :名無しさん@お腹いっぱい。:2008/06/02(月) 13:24:53
何と何が接続できなかったかを議論する前に
そんな障壁があったとは知らなかった。

92 :名無しさん@お腹いっぱい。:2008/06/02(月) 19:46:39
この数日Failed Connection頻発して使い物になんね

あとドメイン失効したサイト跡地にrobots.txt置く業者ウゼェ、マジで氏ね

93 :名無しさん@お腹いっぱい。:2008/06/02(月) 21:19:47
Failed Connection 頻発がマンネリ気味の恐れがあるなら、

94 :名無しさん@お腹いっぱい。:2008/06/03(火) 17:24:31
どのアドレスを入力してもFailed Connectionと出る、何があったのか!?

95 :名無しさん@お腹いっぱい。:2008/06/04(水) 05:23:26
過負荷がかかってるだけ
しばらく日をおいたらサーバー増強で直ってるんじゃね?


96 :名無しさん@お腹いっぱい。:2008/06/09(月) 17:10:39
なんか知らんが直ってるっぽいよ。
数メガバイトのzipファイルも1Mb/s辺りで落ちてくる。
1バイト欠けるのは相変わらずだけど。

97 :名無しさん@お腹いっぱい。:2008/06/18(水) 23:07:45
半年ルールでそろそろ今年頭のデータが見れるようになってもいいはずだけど…
昨年8月以降止まってる気がする。

98 :名無しさん@お腹いっぱい。:2008/06/20(金) 00:20:03
>>97
ほんとだ。 8 月末で切れてる。
ttp://web.archive.org/web/*sa_/http://www.goo.ne.jp/
ミラーも同じ状態。
ttp://web.petabox.bibalex.org/web/*sa_/http://www.goo.ne.jp/

99 :名無しさん@お腹いっぱい。:2008/06/26(木) 14:37:06
Proxomitronの設定ってこれで合ってる?

ttp://imepita.jp/20080626/525180

100 :名無しさん@お腹いっぱい。:2008/06/28(土) 10:04:32
>>99
違う。
というか、某所のフィルタを利用するつもりなんだろうけど
フィルタのインポート、エクスポートの方法を調べた方がいいよ。
ついでに、text/html だけじゃなくて、text/plain も考慮してみては。

101 :名無しさん@お腹いっぱい。:2008/06/28(土) 23:17:37
>>100
ども。俺にはややこしそうだから諦めるわ('A`)

102 :名無しさん@お腹いっぱい。:2008/07/01(火) 01:16:19
過去のHPがウェブアーカイブに残ってますが、
これは二度と消すことができないのでしょうか?
また、今のHPも残っていますが、これは今からでも何か処理することで
残る事を防げますか?


103 :名無しさん@お腹いっぱい。:2008/07/01(火) 12:58:22
見れなくされると気分が悪いから教えない。

104 :名無しさん@お腹いっぱい。:2008/07/01(火) 15:08:17
>>103
自分のHPを消したいだけですので、教えてください。

105 :名無しさん@お腹いっぱい。:2008/07/01(火) 23:21:26
英語を勉強してください
以上

それすらできないくせに消したいと思うなど100年早い

106 :名無しさん@お腹いっぱい。:2008/07/06(日) 13:18:45
Data Retrieval Failure.

これって何なの?日本語訳が解らないわけでなく、ある程度のサイズのファイルを落とそうとするとかなりの頻度で見かけて困る。

107 :名無しさん@お腹いっぱい。:2008/07/06(日) 15:48:58
訳せるなら意味もわかるだろ、そのまんまだし
嘘つくなよ

108 :名無しさん@お腹いっぱい。:2008/07/06(日) 16:07:09
そりゃinfoseekやらのポータルサイトに翻訳もある訳でそんなの無学な子供でも解るわい。
データ検索失敗というエラーがある程度容量(5MB以上?)であろうファイルで頻発するのがどうにもエラーメッセージと結びつかないから書いたのだよ

109 :名無しさん@お腹いっぱい。:2008/07/07(月) 11:17:30
半年ルールはどこにいったんだ?

110 :名無しさん@お腹いっぱい。:2008/07/07(月) 12:33:51
このままじゃもうすぐ一年ルールになるなww

111 :名無しさん@お腹いっぱい。:2008/07/08(火) 09:20:08
ほんとだ、2007/8/30以降分が公開されてない…

112 :名無しさん@お腹いっぱい。:2008/07/09(水) 15:09:42
まだHPがある場合、
HTMLにロボット禁止タグを入れると保存されたデータが消えるというのは本当ですか?

113 :名無しさん@お腹いっぱい。:2008/07/12(土) 16:08:08
公開されてないだけでちゃんと8月以降もクロールはしてるんだよな?
不安だ

114 :名無しさん@お腹いっぱい。:2008/07/13(日) 08:06:35
>>112
ぼくがもっとおおきくなって、 えいごがよめるようになってからかんがえましょう。

http://web.archive.org の 「よくあるしつもん」 のぺーじにかいてあります。
それいがいのほうほうはありません。
どめいんのどきゅめんとるーとのあくせすけんがないばあいは、
すなおにあきらめましょうね。

>>113
> 公開されてないだけでちゃんと8月以降もクロールはしてるんだよな?

"ia_archiver" でぐぐると、 足跡を残したアクセス統計が出てくる。 今月のものもある。
クロールしただけで保存されていない、 なんて可能性も否定はできないけど。

あと考えられるのは日数計算のバグくらいか。

115 :名無しさん@お腹いっぱい。:2008/07/13(日) 08:23:24
>>108
試しに "Data Retrieval Failure." を Infoseek の翻訳に掛けてみたら
本当に "データ検索失敗" が出てきた。 これは痛い。

データ処理を表現するときの "retrieve" は、
"get のやや形式ばった表現" 程度に考えるのが普通。
少なくとも "search" ではない。

116 :名無しさん@お腹いっぱい。:2008/07/27(日) 09:18:55
                _,.. ---- .._
              ,. '"       `丶、
              /            ` 、
            ,..-‐/    ...:  ,ィ  ,.i .∧ ,   ヽ.
.         ,:'  .l .::;',. :::;/..://:: /,':/  ', l、 .i  ヽ
.          ,'  ..::| .::;',' :;:','フ'7フ''7/   ',.ト',_|, , ',.',
       ,'   .::::::!'''l/!:;'/ /'゙  /     '! ゙;:|:、.|、| 'l
.         ,'.  .:::::::{ l'.l/  、_  _,.      'l/',|.';|
       l  :::::::::::';、ヾ      ̄     `‐-‐'/! ';. '
.         ! :::::::::::/ `‐、        ゝ   |'゙ |
       | ::::::::/   \    、_, _.,.,_ ノ::: !  
       |::::/.     _rl`': 、_     ///;ト,゙;:::::./
..      `´      /\\  `i;┬:////゙l゙l ヾ/   
                ,.:く::::::::`:、\ 〉l゙:l  / !.|
.            /:.:.:.:\:.:.:.:.`:、ソ/:.:|    | |
           /.:.:.:.:.:.:.:.:.:\:.:.:.:У:.:;l   /./
.          /:.:.:.:.:.:.:.r'´`‐,`、:/.,.:‐{   | !`:、
           ,'.:.:.:.:.:.:.:.:.';_,゚.,ノ.:./,:':.:.:.:',  | |`、:|
           !:.:.:.:.:.:.:.:.:.:.゙、:.::/:.:.:.:.:.:.ヽ, / ,!:.:`、
web_archiveさんが古いパーツや周辺機器のドライバと、
OSやアプリの修正パッチを永久保全しておいてくれますように♪

117 :98:2008/08/03(日) 18:07:00
>>97>>109-111>>113
今日 >>98 のリンク先を確認したら、
本家は今年 1 月のデータまで出てくるようになってた。
ミラーは相変わらず昨年 8 月まで。

118 :名無しさん@お腹いっぱい。:2008/08/06(水) 07:25:07
>>117
d

119 :名無しさん@お腹いっぱい。:2008/08/13(水) 14:22:08
やっと動き出したか
ビビルわぁ

120 :名無しさん@お腹いっぱい。:2008/08/21(木) 16:49:27
これって×になってる画像見る方法ないんか?

121 :98:2008/08/22(金) 10:09:39
>>120
要因による。

122 :名無しさん@お腹いっぱい。:2008/08/22(金) 20:39:52
>>120
見れないと思うぞ

123 :名無しさん@お腹いっぱい。:2008/08/23(土) 15:43:53
こんなん見つけた

Archive-It.org
ttp://www.archive-it.org/public/advanced


124 :名無しさん@お腹いっぱい。:2008/09/10(水) 10:37:12
なんかttp://homepage2.nifty.com/のデータが「サーバーが見つかりませんでした」の連続で
まるっきり表示されないのだが、どうなっとるのかね?

125 :名無しさん@お腹いっぱい。:2008/09/10(水) 20:17:23
>124
そのURLのサイトは軒並みブロックされてたからその所為かも

他のブロックされてたサイトのURLをサーチしたら真っ白画面になる
前はブロックしてますメッセージが出てたのに
たまに見られたりする時があったりしたのにもうそれも無くなるのかな

126 :98:2008/11/15(土) 04:30:13
Internet Archive がキャッシュを出力するときは
<BASE HREF="http://元の URL のドメイン部分/"> というタグを
<head> タグの直後に挿入していたけど、 これが
<BASE HREF="http://元の URL のドメイン部分.way_back_stub/">
というタグに替わってしまった。

何が問題かと言うと、
例えば http://www.example.com/hoge.html のキャッシュを開いたとき、
そこで使用されていた画像は今まで www.example.com サーバへ取りに行っていたのが
www.example.com.way_back_stub サーバへ取りに行こうとしてしまう。
(その後、 JavaScript で web.archive.org 内の画像に差し替えられるけど。)
www.example.com.way_back_stub なんてサーバは当然存在しないわけで、
ブラウザは DNS からエラーが返るまで待ってしまう。

最近、 キャッシュの表示が遅くなったと感じている人はそれが原因かも。
何らかの方法でそういう URL へのアクセスをブロックすることを薦める。
例えば Opera なら、 「http://*.way_back_stub/* 」 を
「コンテンツのブロック」 のリストに加えれば良い。
IE の対処方法は無いような気がする。

127 :名無しさん@お腹いっぱい。:2008/11/15(土) 04:59:02
>>126
ほうほう貴重な情報ありがとん!
ここ応用すればIEでもイケルかな?

特設:時報撃滅大作戦 - ニコニコ動画まとめwiki
ttp://nicowiki.com/%E7%89%B9%E8%A8%AD%EF%BC%9A%E6%99%82%E5%A0%B1%E6%92%83%E6%BB%85%E5%A4%A7%E4%BD%9C%E6%88%A6.html#p54ec720

128 :98:2008/11/15(土) 05:24:16
>>127
おぅおぅ、 こんな過疎スレをチェックしてるとは……。

うちは未だに Proxomitron 使ってるんで、 殆どのブラウザをブロックできるんだけど
開発が止まった古いソフトだし、 Prox ユーザなら方法はすぐ思いつくだろうから
敢えて書かなかった。
ありがと。

129 :名無しさん@お腹いっぱい。:2008/11/18(火) 03:40:49
サイトの削除依頼の仕方がわからない…
User-agent: ia_archiver
Disallow: /
ってなrobot.txtをアップして
ttp://www.alexa.com/site/help/webmasters
ここでCrawl My Siteボタン押してから2ヶ月近く経ったけど未だに削除されない…
削除依頼の仕方間違ってるのかな?

130 :名無しさん@お腹いっぱい。:2008/11/18(火) 12:01:36
× robot.txt
○ robots.txt

131 :名無しさん@お腹いっぱい。:2008/11/18(火) 19:51:46
>>130
レスする際に書き間違えていました。robots.txtとしてアップロードしてます。
それで何故か今日の4時ごろにメールがきていました
Hello,
Your site has now been excluded from the Wayback Machine. Please wait an hour for the changes to take effect. If you have any other questions or concerns, please let me know.
削除されたのを確認しましたが、なんでこんなタイミングよく今頃になってメールきたのかサッパリです。

132 :名無しさん@お腹いっぱい。:2008/11/18(火) 20:46:15
そりゃ中の人がこのスレを見tうわなにすくぁwせdrftgyふじこlp;@:「」

133 :名無しさん@お腹いっぱい。:2008/12/07(日) 03:17:49
どうしても見られないところはどうすればいいのかなー
他にいい所ありますでしょうか?

134 :名無しさん@お腹いっぱい。:2008/12/16(火) 11:19:52
残念ながら…

135 :名無しさん@お腹いっぱい。:2008/12/25(木) 00:25:04
そうですかorz

136 :名無しさん@お腹いっぱい。:2008/12/25(木) 00:41:23
魚拓系のサイトと違って、
クローラを使って手当たり次第に保存していくサイトは
ここ以外に無いでしょ?

137 :名無しさん@お腹いっぱい。:2008/12/31(水) 02:43:19
audio archiveのFAQを見ても書いてないっぽいんで念のため聞きたいんだけど、
あそこの音源って直リンクかましてもOKなん?

138 :名無しさん@お腹いっぱい。:2008/12/31(水) 13:26:59
ネチケット的にはどうかと思うけど、(今の所)問題は無い
ただ余りにも人が来るサイトや負荷をかけるツールを使うような厨が来るサイトなら
メールで許可取っといた方が無難

139 :名無しさん@お腹いっぱい。:2009/01/02(金) 03:29:45
>>138
ありがとう。
じゃあ例えばCCLPで曲を公開してるアマチュアミュージシャンが
倉庫代わりにAudio Archiveに自作曲を置いて、自サイトに直リンク
させて公開って手法も有りって事になっちゃうんだね。

メールでの許可取るのが非英語圏の人間には大変そうだけど。

140 :138:2009/01/02(金) 17:23:17
>>139
>>139の「例えば〜」ってのにつっこむと、
可能な限りメインリンクとしてでは無くミラーリングリンクとしてAudioArchiveを使ったほうが良いと思うね。
例にInternet Archiveに許可を取ってゲームのTAS(Tool-assisted speedrun)動画を鏡公開してるサイト貼っとく。
Speed Demos Archive
ttp://speeddemosarchive.com/

あと英文メールでの許可なんて、数〜数百メガのファイルが倉庫代わりに置ける鯖やサービス探すより遥かにラクでしょ?
辞書片手の昔ならいざ知らず、今はExciteとかWeb翻訳等のエンジンもかなり向上してるしさ。
ちゃんとメアド・自サイトURLなどの身元や、CCLPで公開してると明記しとけば審査も通るハズ。

実際の所>>137が何をしたいのかわからんけど、俺のレスが何かの参考になればいいな…と思ってる


141 :139:2009/01/03(土) 01:30:29
>>140
丁寧にありがとう。
> 実際の所>>137が何をしたいのかわからんけど
昔やっていた2ちゃんのまとめサイトのデータの中の音源部分をAudio Archiveにアップ
しようかと思っているんですよ。2chで公開されていたものなんでPD同然ですけど、
空気として非営利が当たり前って感じでしたから、まぁCCLPで非営利-継承くらいが
適当なのかな、と。
で、公開するのに直リンクは止めてねと明示しておいた方がいいのかどうか、
特に記載も無いからOKって事なのか、分かりかねていたところでありました。

仰るようにIAの運営目的を考えたら倉庫的に使うのではなく、あくまで実際の図書館がそうであるように
「納める」先の一つとするのが筋ですわね。

142 :138:2009/01/03(土) 10:20:56
多分(というか普通)直リンは禁止にしておいたほうがいいと思うわ(なるべくHTMLにリンクさせるとか)
もし2chなどに貼られたら転送量がハンパじゃなくなるし、やっぱ「納める」先の一つと考えた方がベター

あと俺、音楽詳しくないし法律詳しくないしスレ違いだけど
"2chで公開されていたもの"って139が作った音源じゃないの?
だとしたらPDじゃなく権利はまだ製作者にあると思う→ドワンゴ問題
削除依頼スレ等でよく間違いを見るんだけど、2chでのレス(文章)は2chに帰属するけど、2chにリンクとして貼られたブツは管轄外
とくに音楽関係は様々な団体の利権が絡みやすいので気を付けて
なるべくだったら製作者に「これこれでこう公開する」と許可取った上で公開した方が良いと思うよ
大きなおせっかい老婆心スマソ

143 :139:2009/01/04(日) 05:07:09
>>142
親切にアドバイスありがとう。
確かに権利関係はちょっとは気にしてます。名無しor捨てハンの人の作品ばっかりなんで、
許可の取りようが無いってのが実情ですが。
作り手の心意気を汲んだ形で後世に残るようにしたいとは思ってます。

転送量についても気にするところですが、サーチエンジン弾いてこっそり奉納って
多分できないですよね。noindexのオプションはIA内でのサーチからは隠れてもGoogleのロボット検索は弾いてくれない
みたいなんで。

144 :名無しさん@お腹いっぱい。:2009/01/04(日) 11:18:40
許可の取りようが無いから勝手に公開していいってことにはならないよ
>>139が著作権法なんて無視だ!2chでそんなこときにしてられるか!法律は俺が法だ!
っていうなら止めようもないけど

145 :名無しさん@お腹いっぱい。:2009/01/04(日) 13:55:20
うん、まぁ2chだしいいんじゃないの

146 :名無しさん@お腹いっぱい。:2009/01/05(月) 14:24:32
レンタルサーバーでドメイン取得していて
そのサイトを閉鎖する時にどうやってアーカイブブロックするのかな?
解約したらテキスト置けないし、メールで要請した時はどうやって本人確認取ってるの?

それと数年後にまたサイトやりたくなって同じドメインを取得してブロック解除要請とか出来る?

最後に、
契約終了後のレンタルサーバー側で勝手にブロックしてるところもあるみたいなんだけど
その場合同じドメイン取得するれば自動的に解除になるのかな???
質問ばかりですんません。詳しい人いるかなー。

147 :98:2009/01/05(月) 17:50:25
>>146
閉鎖だからブロックだの、 後で解除だの、 はた迷惑な話。
Internet Archive 等の長期キャッシュのみ排除するよう、
robots.txt の中身を考え直すほうが先。

> 契約終了後のレンタルサーバー側で勝手にブロックしてるところもあるみたいなんだけど
ドメインが失効してしまえば、 DNS から抹消される。
レンタルサーバ側でどんな対応をしたところで、 いずれは無関係になる。

DNS から引けない状態を、 IA は HTTP 404 エラーと同様に
「robots.txt 未設置 = すべて許可」 として処理しているように思える。
開設後かなり時間が経ってから robots.txt を置き、 その後廃止されたサイトで
robots.txt 設置後のキャッシュは確かに IA に残っていないのだが
設置前にクロールした分はドメイン失効後に公開されてしまった、
そんなのを見たことがある。

148 :98:2009/01/05(月) 18:04:19
書き忘れ。

>>147 は普通にレジストラからドメインを取得した場合の話。
レンタルサーバ業者のサブドメインの場合、
契約終了後に DNS で引けなくなるタイプなら >>147 と同様になるが、
終了サイト用のコンテンツが用意されていれば、 その robots.txt の内容次第。

149 :名無しさん@お腹いっぱい。:2009/01/05(月) 22:42:34
>>148
専門用語が多くてよくわからんかったけど
調べながら見てみます ありがとう!

150 :名無しさん@お腹いっぱい。:2009/01/06(火) 22:22:43
>>144
その指摘が正しいのは重々承知してます。
だから現実的には著作権侵害が親告罪なのを考慮して、とりあえずアップして
問題があったら削除しますから連絡下さい。作者とわかる証拠と共に。みたいな形に
なるのかな、と。GoogleStreetViewみたいなオプトアウト式を取ってますよ、とういう形。

実際文句を言われる事は無いとは思うんだけど、2ちゃんねる的な空気感の伝わらない
ところに保存するんだから、アピールでもあれそういった形だけ見せる必要はあるかな、
とは考えています。

話題が完全にスレ違いになってしまいましたね。御免なさい。

151 :名無しさん@お腹いっぱい。:2009/01/10(土) 22:07:37
>>117あたりで一旦直った昨年2月以降公開ずっと止まりっぱなしだぞー

152 :名無しさん@お腹いっぱい。:2009/01/16(金) 18:29:08
過去のサイトを検索できるWEBアーカイブの実力 | R25
ttp://r25.jp/b/honshi/a/ranking_review_details/id/1112008111304


7年前のネット世界にタイムスリップ。
10月末までの期間限定サイト『2001 Google Search』では2001年時点でのキーワード検索の結果が表示され話題になった。
でも、どうしてグーグルで過去のサイトが検索できたのだろう? もしや膨大な量のサイトを保存しているのか。
サーチエンジンや情報検索を研究する早稲田大学基幹理工学部の山名早人教授に話を聞いた。

「グーグルは過去のサイトの保存を公式に認めていません。
見ることができたのは、アメリカにある非営利団体『インターネット・アーカイブ』が保存しているサイトにリンクされていたからです。
ここはWEB上に存在したサイトを保管する図書館のようなもの。
本と同じようにサイトの情報も未来に残す文化と捉えて様々なサイトを収集、保存しています」

収集頻度はWEBページの更新間隔を予想してロボットが自動的におこなうので、
毎日更新のサイトでも全て収集されているわけではないとか。
ちなみに、"2001 google Search"は終了したからもう見られないとお嘆きのあなた。
『インターネット・アーカイブ』から直接URLを打ち込めば、国内外を問わず過去のサイトを見られる場合もあるので一度お試しあれ。


日本ではというと、実は『WARP(インターネット情報選択的蓄積事業)』と呼ばれるプロジェクトを国立国会図書館が行っている。
とはいえ、担当者によると「今のところは主に国の公的機関のWEBページを収集の対象としている」とのこと。

ユーザーの立場からすると、過去の情報が蓄積されるのは便利である。
しかし、著作権法の保護対象や肖像権、プライバシー権の取り扱いは国によって異なる。
日本ではWARPが収集しようとした公的機関のサイトがタレントを使ったキャンペーンだったので断られたケースもあったという。
気軽にいつでも過去のページを見られるようになるには、まだまだクリアしなくてはいけない問題が山積みのようだ。

(笹林司)

153 :名無しさん@お腹いっぱい。:2009/01/20(火) 21:44:40
いいんだけどなあ

154 :名無しさん@お腹いっぱい。:2009/01/25(日) 03:43:40
Internet Archiveを使って過去のサイトを見てるんだが、cgi掲示板だけは開けない。
ページ移動も記事閲覧もcgi依存だからかな
なんとか見る方法知らないか?

155 :名無しさん@お腹いっぱい。:2009/01/25(日) 05:25:08
そのCGIタイプや鯖などのURL晒してもらわんことには何ともいえん
cgiでは無くdatなどのログへの直アドで見れることもあるし

156 :名無しさん@お腹いっぱい。:2009/01/25(日) 18:34:35
ttp://web.archive.org/web/20030203082912/rx.sakura.ne.jp/~kobuta/abou/ffss14_/anthology.cgi
ttp://web.archive.org/web/20001019054809/rx.sakura.ne.jp/~kobuta/abou/ffss/anthology.cgi

こんな感じのやつで、過去ログ移動&作者を選択してリスト表示や、NEXTPAGEを押して移動したいんだがどうにもできん
どうにかして過去ログをみたいんだが、手はないのかな?


157 :98:2009/01/25(日) 23:15:11
>>156
ワイルドカードを使い、 出てきたものを虱潰しに当たる。
これしか方法は無い。
ttp://web.archive.org/web/*/http://rx.sakura.ne.jp/~kobuta/abou/ffss14_/anthology.cgi*
ttp://web.archive.org/web/*/http://rx.sakura.ne.jp/~kobuta/abou/ffss14_/novel.cgi*
ttp://web.archive.org/web/*/http://ayame.sakura.ne.jp/~gil/abou/ffss/anthology.cgi*

158 :名無しさん@お腹いっぱい。:2009/01/27(火) 15:41:01
>16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります
おお、すごい!直った。

所で、Internet Archiveに保存されたサイトを、リンクを保ったままHDDに保存したいのですが、
ブラウザで保存するとアーカイブされた日付ごとにフォルダができてしまい、
また、そもそも下層リンク等が保存できません。
なにか、保存する方法ってあるのでしょうか?

159 :98:2009/01/27(火) 17:42:59
>>158
Internet Archive が出力する HTML は、 オリジナルに対し
次の 2 ヶ所に挿入が行われている。 (\n は改行文字)

◎ <head 〜> の直後
\n<BASE HREF="http://ほげほげ">\n
◎ </html> の直前、 もしくはファイルの末尾
\n<SCRIPT language="Javascript">\n<!--\n\n// FILE ARCHIVED ON 〜
(中略)
〜 \n//-->\n</SCRIPT>\n\n

関係するファイルを一つ一つちまちまとダウンロードし、
オリジナルのフォルダ階層に沿ってファイルを配置し、
それぞれの HTML から前述の 2 点を除去すれば、
リンクを含めたサイトの構造を完全に再現できる。

ここでいう 「ダウンロード」 とは、 HTML や画像、 スタイルシートなど
ファイルを一つ一つ個別に保存することを指す。
非常に手間が掛かるし、 欠けているファイルを探すために
HTML を読んでトレースするなど、 多少の知識は要求される。

ブラウザでの保存方法によっては、 保存先を一回指定するだけで
画像などをごっそり持ってきてくれることがあるが、 あれは
その時開いていたページ 「だけ」 を HDD 上で再現させるもの。
リンク先などは外の (ネット上の) URL に張る必要があるし、
そもそも 「解らない人向けのお手軽機能」 だから仕方が無い。

160 :156:2009/01/28(水) 01:25:29
>>157
ありがとう。難作業だがやってみる!

161 :名無しさん@お腹いっぱい。:2009/01/30(金) 18:11:55
現在停止中みたい

162 :98:2009/01/31(土) 00:37:26
昨年 2 月より後のキャッシュが出てこない件、
サイトによっては 4 月 1 日まで OK っぽい。
ttp://web.archive.org/web/*/http://www.google.com/
ttp://web.archive.org/web/*/http://www.yahoo.com/
それでも、 まだおかしいことには変わりは無いが。

163 :158:2009/02/08(日) 00:09:29
>>159
ちまちま法しかないんですか、ありがとうございました。


164 :98:2009/04/08(水) 12:19:25
とうとう、 新しいキャッシュが出てこないまま 1 年が経過。

>>126 の件だが、 BASE タグで挿入されるドメインが
http://元の URL のドメイン部分.way_back_stub/」 から
http://元の URL のドメイン部分.wstub.archive.org/」 に変わってるなー。
少なくとも、 DNS でのエラー待ちは無くなった。
ただ、 用意されているサーバは どうも 404 を返すだけのようだから
素直にフィルタリングしたほうが良いのかな。
Internet Archive が持っているキャッシュにリダイレクト等してくれると
ありがたいんだけど。

165 :名無しさん@お腹いっぱい。:2009/04/09(木) 15:46:09
二ヶ月もスレが止まっていた件について

166 :98:2009/04/09(木) 15:56:46
>>165
ネタあらへんさかいしゃーないやんか

167 :名無しさん@お腹いっぱい。:2009/04/09(木) 16:23:54
それもそうだな
Recallの復活はいつになるのかねぇ

168 :名無しさん@お腹いっぱい。:2009/04/16(木) 01:01:40
wayback machineが使えない。

169 :名無しさん@お腹いっぱい。:2009/04/16(木) 02:07:06
使えるようになった

170 :名無しさん@お腹いっぱい。:2009/04/22(水) 20:11:47
どうしても見たい記事が見れねぇ
技術の発達で今後見られるようにならないかな

171 :98:2009/04/22(水) 21:00:27
>>170
元々キャッシュされてないとか、
robots.txt で撥ねられてたら無理だな。

172 :名無しさん@お腹いっぱい。:2009/04/22(水) 22:47:15
robots.txtは地味にうざい

173 :98:2009/04/23(木) 01:20:57
まあ、 こういう例もあるからなあ。
ttp://web.archive.org/web/*/http://%73%68%77%61%73%68%77%61%2e%63%6f%6d/*

このサイトにロボット全拒否の robots.txt が設置された後、
初めて Wayback Machine が読みに行ったのが 2007 年 12 月。
よって、 それ以降はクロールしていないだろうし、
Wayback Machine から古いキャッシュを取り出そうとしても
"Robots.txt query exclusion." と返されていたはず。
ところがサイトが死んでしまったものだから、
robots.txt 設置前にクロールされた分が公開されてしまった、 というオチ。

174 :名無しさん@お腹いっぱい。:2009/04/23(木) 13:04:52
特に、ページは読めてもファイルが置いてあるところはrobots.txtでブロックされていると目茶苦茶にがっかりする

175 :名無しさん@お腹いっぱい。:2009/04/26(日) 16:47:22
ちまちま法しかないのでしょうか?


176 :98:2009/04/26(日) 18:27:05
>>175
>>159 の "ちまちま" のこと?
あれを自動で行う、 専用の HTTP クライアントソフトを作れば良い。
既に誰かが作った、 という話は聞いた事が無い。

TCP が扱えるスクリプト言語か何かを使って HTTP を喋らせれば済む話だから、
作るのはそんなに難しいことではないと思う。
一度に数百個もキャッシュを拾ってくる必要性が出てきたら
俺も真剣に考えるかな。

ttp://web.archive.org/web/*nr_大きい数字/example.com/*
みたいな URL を与えて、 サイト内のファイルをごっそり持ってくるような方法なら、
HTML 解析も Wayback Machine のキャッシュ一覧を処理するだけになる。

177 :名無しさん@お腹いっぱい。:2009/04/27(月) 05:07:07
175です。
すいません。1999年から2002年ごろに作ったすでに閉鎖したWebサイトを復元したおきたいと思ったのです。
何日かすべてがInternet archiveに残っていますので、一括ダウンロードができないかって思ったのです。
いくつかの一括ダウンロードソフトで試みたのですが最初のページだけしかダウンロードしてくれません。
設定のコツみたいなものがあるのでしょうか?

ぐぐったらwarrickってparlプログラムを使う方法もありそうですがちょっと簡単ではないみたいで、これを試みてみましたが
どうもうまくいかない状況です。

ちまちま落としていくにはちょっとページが多すぎるのです。
まずは、一括ダウンロードだけでもしたいと思っています。



178 :98:2009/04/27(月) 20:13:23
>>177
へえーへえーへえー warrick って面白そう。
ただ生憎動かせる環境が無いなあ。

一括ダウンローダで最初のページしか持ち帰らないのは
ダウンローダの選定/設定ミス (リンク先を自動追跡していない) でなければ、
「最初のページ」 の URL が不適切。

>>156 のような再現されたページからスタートしても、
そこで使っている画像ですら 404 で、 他には何も持ち帰れない。

>>176>>173>>157 のようにワイルドカード (*) を与えて、
Wayback Machine が持っているファイルの一覧からスタートする必要がある。

179 :名無しさん@お腹いっぱい。:2009/04/29(水) 08:18:17
ダウンローダを iria とか irvineとかWeBOXとか使ったがうまくできなかったので
結局、warrickで行くことにした。
なんとか、WindowsXP環境にアクティブパールやSOAP-Lite等をセットできて
動作した。すごく動かすまでに時間はかかってしまいましたが。
まあ、どのディレクトリーになにを置くのかがポイント。メッセージを
見たらわかるだろって突っ込まれそうですが。
うまく動作してくれて目的は達成できました。いろいろありがとうございました。


180 :名無しさん@お腹いっぱい。:2009/04/29(水) 11:21:32
スクリプトOFF民族としては今の仕様は糞。

181 :名無しさん@お腹いっぱい。:2009/05/01(金) 16:12:52
K-12 Web Archiving Program!ってなんだろ

182 :名無しさん@お腹いっぱい。:2009/05/01(金) 16:22:35
warrickがGUIになればいいのに

183 :名無しさん@お腹いっぱい。:2009/05/01(金) 16:23:42
>>181は中卒
あんな英語も読めん

184 :名無しさん@お腹いっぱい。:2009/05/01(金) 20:37:43
中卒でもあれくらい読めるだろw小卒でも読めるはずだw


つまり>>181は幼卒か教育を受けていない

185 :98:2009/05/01(金) 23:10:06
>>179
おめ

>>184
K-12 未満には K-12 の話題は解らん、 て事か。

186 :名無しさん@お腹いっぱい。:2009/05/24(日) 09:30:18
>>162
データ収集はしているが、掲載を停止しているということ?
それとも収集自体やめてしまった?

187 :名無しさん@お腹いっぱい。:2009/05/24(日) 09:39:04
>>186
自己レス。Wayback Machine Forumを見てたら、

Wayback Stopped Archiving?という質問に対して次の回答

Poster: gojomo Date: May 22, 2009 03:00:08pm
Forum: web Subject: Re: Wayback Stopped Archiving?
It always takes at least 6 months, and sometimes about a year, for collected web material
to become part of the public Wayback Machine collection.

After some recent changes to the Wayback Machine architecture, and the migration of all data
to a new datacenter, we'll be catching up through all 2008 in the next month or so.

- Gordon @ IA

全データを新しいデータセンターに移していて、6月か7月ぐらいには2008年分までは作業が終わるということか。


188 :名無しさん@お腹いっぱい。:2009/05/24(日) 11:02:04
>>187
へー参考になった

189 :名無しさん@お腹いっぱい。:2009/06/16(火) 22:48:14
We're sorry, access to http://jns.ixla.jp/users/utyuunosora1641/isyu2.jpg has been blocked by the site owner via robots.txt.
くっそう!なぜだ!

190 :名無しさん@お腹いっぱい。:2009/06/20(土) 07:33:33
久しぶりに昔のお気に入りサイトに行ったら閉鎖してて
なんとかしてみたいと思ってInternet Archiveを使ったのですが…
『このホームページはJavaScriptを使っています。
ブラウザの設定でJavaScriptを有効に設定してから
アクセスしてください。』
とか出ちゃいました
JavaScriptは有効にしてるのにみれないから、これはなんかもう駄目ってことなんでしょうか?
このHPなんですけど
ttp://cocoaroom.kir.jp/



191 :名無しさん@お腹いっぱい。:2009/06/20(土) 17:56:53
ら抜きやめろあきらめろ

192 :名無しさん@お腹いっぱい。:2009/06/20(土) 21:30:01
やっぱり駄目なんですかー
ありがとうございました

193 :名無しさん@お腹いっぱい。:2009/07/06(月) 20:19:29


194 :名無しさん@お腹いっぱい。:2009/09/24(木) 00:53:17
メンテナンスを再開したみたいだな

195 :名無しさん@お腹いっぱい。:2009/10/03(土) 18:41:23
そうだな

196 :名無しさん@お腹いっぱい。:2009/10/07(水) 07:46:12
またメンテ

197 :名無しさん@お腹いっぱい。:2009/10/08(木) 03:45:04
Internet Archive

198 :名無しさん@お腹いっぱい。:2009/10/08(木) 20:01:16
メンテ再開

199 :名無しさん@お腹いっぱい。:2009/10/24(土) 00:12:59
  ー-= 、  ,,...、 /:;:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::ヽ
   ,::-'' ̄`:Y,,,、Y::::::::::::::::::∧:::::::i;:::::::::::::::i;::::::::::::::::::::::::::\
 /  ...:::::::::i"  Y:::/::::::::::::/  ヽ;::::iヽ;;:::::::::::!;::::::::::i::::::::..i,  ';
.i ..:;::::::::;;;/ `'='":/:::::::;i::::/   ヽ:::!,ヽ;;:::::::::::i;:::::::::|;::::::::|:::::::!,
.|::::;i:::::;//  |::::::!:::::::;/::/     ヽ;::i \;;::::::!ヽ;:::::|;;:::::::|::::::::|
. i;:;|::;/ !   |::::::|::::::;/!::i      ヽ:!,  \;:::::|ヽ:::::|!;;::::::|:::::::|
 \/ '   !:::::;|::::;/ |:|       ヽ!    ヽ;::| ヽ::| 'i;:::::|:::::::|
       |::i::;;!;;:::i `|!' -ー ,,_    '!,   _,,>::!-'!:|´ |::::|::::::|
      ノ1;;!;!;;;;!  ! ,-'',´o::,`    ` `=''o:',ヽ、!  i:::i:::;::|
       |/`!r-!, ./ i::::::::::::i      i:::::::::::i. `,  !::i;;;;i;:|
       '  | `)i '  ヽニノ      ヽニノ  ! /|!`i/V
         ヽ `,} .::::::::..            .::::::.. !) /
   ,,、        `Ti ::::::::      '     :::::::::: i,,=i7
   ヽ ヽ        Vヽ                  イ/ '
    `, `,       `_へ.、    rニュ    _,. t7 "     ageます。
     i  ヽ     ,-i':ヽ`''"ニi-ー .,,,,,,,. -t'´''''フ⌒iヽ
    ,./-´`'r-ー、r-' ヽ: ヾ´ '        ' `=/: :/ `、
    ! - '''ヽ=- }     ヽ:.ヽ        /: :/    'ヽ
    }  -'''`Y  |ヽ     `:、`-ー、  ,.-': :/    _,,イ
    >、-t-´` .イ: :'! \    `''+; ;'i ./: :/   _,.-'''´ /: :i
   .|:.iゝ、  /i|: : :'!,  `' ----┴-!--'ー-- ´  i  /: : : |
    |: Y   |ノ:i: : : :!         /⌒'- .,,/''ヽ| /: : : : :.!

200 :名無しさん@お腹いっぱい。:2009/10/28(水) 18:03:41
Internet Archiveってrobot.txtが効いてても公開されないだけで保存されるんでしょ?
robot.txt実行してもそのサイト自体404になったら公開されるんだろうか…?

201 :名無しさん@お腹いっぱい。:2009/10/29(木) 12:03:13
>>200
スレを頭から読み直せ

202 :名無しさん@お腹いっぱい。:2009/11/29(日) 03:05:44
2008年6月以降のログって無いの?

203 :名無しさん@お腹いっぱい。:2009/11/29(日) 20:28:21
>>202
アーカイブはしているが参照できるようには整理していないということでは。

204 :名無しさん@お腹いっぱい。:2010/01/18(月) 04:07:48
Internet archiveを携帯で見れるブラウザサービスって「ぐるっぽ」以外にあるでしょうか。
ファイルシークなどだとページは見れますが、リンクを飛ぶたびいちいちnot found や404になってしまいます
また、imodeなどのフルブラウザ機能で上のような不具合なく閲覧可能なものはあるでしょうか
nternet archive、のスレ検索で出てきたのがここだけなので聞いてみますが、スレチでしたら申し訳ない

205 :名無しさん@お腹いっぱい。:2010/01/18(月) 04:31:27
iPhoneの一台や二台買えよ

206 :名無しさん@お腹いっぱい。:2010/01/18(月) 06:34:05
別に二台は要らんだろ

207 :204:2010/01/18(月) 23:42:50
>>205
iphone(というよりipod touch)買おうかなと思ってたので参考になりました。
あと自分で調べたんですが携帯用のYahooのブラウザだと表示可のようです。
読み込みにものすごい時間かかったりエラー表示がたまにでたりしますが。
touchの購入も視野に入れて見やすいブラウザ探していこうと思います。

208 :名無しさん@お腹いっぱい。:2010/02/19(金) 20:31:29
年明けてからなんかやけに重くなったな。
やたらとエラー頻発するし・・・
今日なんかどのページを参照しても「Failed Connection」しか出てこない。一体どうなってんだ。

209 :名無しさん@お腹いっぱい。:2010/02/21(日) 18:41:55
たしかに重い。なんとかしてくれ。

210 :名無しさん@お腹いっぱい。:2010/02/22(月) 15:00:44
とにかく2008年分はメンテしてくれ

211 :名無しさん@お腹いっぱい。:2010/02/28(日) 01:38:44
重いどころか、落ちてるじゃねーかorz

212 :名無しさん@お腹いっぱい。:2010/03/03(水) 06:36:06
一応保守

213 :名無しさん@お腹いっぱい。:2010/03/07(日) 23:21:47
削除依頼ってwayback2@archive.orgかinfo@archive.org宛てであってる?
一ヶ月前両方に送ったのに音沙汰なし。もう一回送った方がいいのかな。

214 :名無しさん@お腹いっぱい。:2010/03/19(金) 03:40:58
参考までに

「クルクート幻想風花」無断再配布事件 経緯とそのまとめ → webアーカイブからコンテンツを削除するためのいくつかの方法
http://red.ribbon.to/~poughkeepsie/curucute/webarchive.htm

215 :名無しさん@お腹いっぱい。:2010/04/06(火) 11:54:54
めちゃくちゃ重いのですが

216 :名無しさん@お腹いっぱい。:2010/04/09(金) 21:11:47
info@〜宛で送ったけど音沙汰なくて
lenny@archive.orgの方に送ったらすぐに消してもらえた

去年の話だけど参考までに

217 :名無しさん@お腹いっぱい。:2010/04/13(火) 17:20:00
robots.txtでアーカイブ表示させないようにしてても
たまに普通に見られることがある(ブラウザにキャッシュが残ってるわけじゃない)
リロードするとまた表示できなくなるけどこれじゃ意味ないな

218 :名無しさん@お腹いっぱい。:2010/05/06(木) 21:57:07
メンテ促進祈願

219 :名無しさん@お腹いっぱい。:2010/06/12(土) 12:57:01
>>Poster: gojomo Date: June 10, 2010 04:06:21pm
>>Forum: web Subject: Re: why not visible ??

>>Material archived in 2009 and 2010 (and even a little from the very end of 2008) has been saved
>> but not yet indexed for display in the Wayback Machine. That indexing is being held up by software
>>and systems changes still in progress, but material from these dates will become available sometime
>>in the next few months.


220 :名無しさん@お腹いっぱい。:2010/06/13(日) 06:45:47
ポスター: gojomo日付: 2010年6月10日、04:、午後6時21分フォーラム: ウェブSubject: Re: 目に見えないなぜ?
2009年と2010年(そして、2008年の最後の最後からの少しさえ)に格納された材料は、救われますが、Wayback Machineでの表示のためにまだ索引をつけられていません。
そのインデックスはまだ進行中のソフトウェアとシステム変化によって上げられていますが、これらの日付からの材料はいつかこの数カ月で利用可能になるでしょう。

221 :名無しさん@お腹いっぱい。:2010/06/26(土) 20:44:56
Internet archive で削除なんて不必要だと考えるんだが、どうでしょうね。
一旦、発行した書籍、雑誌は世の中に永遠に残ってしまうのに、
インターネット情報は残らないから、こういう場所を作ったのに、
それを消せる機能を持っているというのはなんか違う気がする。

222 :名無しさん@お腹いっぱい。:2010/07/01(木) 05:03:03
2000年から細々と身内しか見てないようなサイトやってて
数年後にロボット避け置くようにしたんだけど、それ以前のページも一切保存されてない。
やっぱりカウントの少ない無人島みたいなサイトは取得されないこともある?
10年前のページが今後公開されるなんてことはないよね。

223 :名無しさん@お腹いっぱい。:2010/07/03(土) 12:41:36
糞重い cgiroom.nuのアーカイブ見れない

224 :名無しさん@そうだ選挙に行こう:2010/07/11(日) 14:48:12
Index Metadata Errorって出るページは絶対見れないの?


225 :名無しさん@お腹いっぱい。:2010/07/13(火) 15:09:31
>>224
どこで出る?

226 :名無しさん@お腹いっぱい。:2010/07/13(火) 17:53:14
>>225
ttp://web.archive.org/web/20001010171406/www4.justnet.ne.jp/~yumichan/ffpmidi.htm
このページのmidiを聞こうとすると出てくる

227 :226:2010/07/13(火) 18:13:02
FAQ見る限りでは今後見れるようになる可能性もあるっぽいな

228 :名無しさん@お腹いっぱい。:2010/07/15(木) 07:38:24
niftyのプロバ鯖ってデフォルトでアーカイブ避けしてあるんだな
何も知らずに使ってた

229 :名無しさん@お腹いっぱい。:2010/08/10(火) 01:55:24
jcomもなー

230 :名無しさん@お腹いっぱい。:2010/08/18(水) 15:52:51
Data Retrieval Failure.
って出る……みなさんもそうかな?
ちなみに、見たいページはこれです。
http://www.h4.dion.ne.jp/~chibicon/page044.html

231 :名無しさん@お腹いっぱい。:2010/08/18(水) 15:54:59
http://www.h4.dion.ne.jp/~chibicon/page044.htmlをアーカイブで開こうとしたらData Retrieval Failure.って出て来た。

232 :名無しさん@お腹いっぱい。:2010/08/19(木) 10:58:18
そう慌てなさるな。
http://web.archive.org/web/*/http://www.h4.dion.ne.jp/~chibicon/page044.html

233 :名無しさん@お腹いっぱい。:2010/09/03(金) 04:10:03
ttp://web.archive.org/web/*sa_/http://www.google.com/
最新: Jun 08, 2010
ttp://web.archive.org/web/*sa_/http://www.nasa.gov/
最新: May 21, 2010
ttp://web.archive.org/web/*sa_/http://www.w3.org/
最新: May 20, 2010
ttp://web.archive.org/web/*sa_/http://www.yahoo.com/
最新: Mar 24, 2010
ttp://web.archive.org/web/*sa_/http://www.altavista.com/
最新: Oct 28, 2009
ttp://web.archive.org/web/*sa_/http://www.goo.ne.jp/
最新: Oct 27, 2009

何故か 6 ヶ月以内のもの公開されている。

234 :名無しさん@お腹いっぱい。:2010/09/03(金) 12:19:02
基準がわからんな

235 :名無しさん@お腹いっぱい。:2010/09/03(金) 14:35:51
[ご挨拶]

平素は、Infoseek をご利用いただきまして誠にありがとうございます。

インフォシークでは、2001年より、無料ホームページサービス「インフォシーク iswebライト」、および有料の「インフォシーク iswebライト 広告非表示オプション」を提供してまいりました。
しかしながら、昨今のインターネット環境の変化を受け、弊社内にて慎重に検討を重ねた結果、誠に勝手ではございますが、サービスを終了させていただくこととなりました。

「インフォシーク iswebライト」、および「インフォシーク iswebライト 広告非表示オプション」を長年ご愛顧いただいた皆さまに、ご迷惑をおかけすることを深くお詫びします。


[サービス終了概要]

■ サービス終了予定日
2010年10月31日(日) (11月1日に終了作業を行います)


■ 終了対象サービス

インフォシーク iswebライト (無料サービス)
インフォシーク iswebライト 広告非表示オプション (有料サービス)
※インフォシーク iswebベーシック (有料サービス)は今後もサービスを継続します

236 :名無しさん@お腹いっぱい。:2010/09/03(金) 14:37:17
■ ホームページデータの移行について
「インフォシーク iswebベーシック」(有料)にて、ホームページを継続される場合は、専用の移行ツールの提供を予定しております。
※お詫び:移行ツールは8月下旬の提供を予定しておりましたが、9月上旬に延期させていただきました。
提供延期となりましたことを深くお詫びします。

※ データ移行に関する方法やサービス利用料につきましてはこちらをご確認ください
※ ツール提供前に、広告非表示オプションの契約期限を向かえる方はこちらからお問い合わせください。


■ なぜホームページサービスを終了するのか

「インフォシーク iswebライト」のサービス開始当初におきましては、ホームページスペース提供サービスがインターネットにおける情報発信ツールとして大きな役割を担ってまいりました。

しかしながら、インターネットの発展に伴い情報発信ツールも多様な進化を遂げており、無料のホームページスペース提供サービスとして運営してきた「インフォシーク iswebライト」は当初の役割を終えたものと判断いたしました。
長年に渡ります皆さまのご愛顧に深く感謝しております。

皆さまにはホームページ移行等で、お手数をおかけいたしますが、前述状況を踏まえたサービス終了でありますことを、何とぞご理解いただき、ご了承くださいますようお願い申し上げます。

ご利用いただき誠にありがとうございました。

※サービス終了、データ移行についてのお問い合わせはこちらより受け付けております。
お問い合わせの際には、ご自身のiswebID(又はURL)のご記入を必ず、お願い申し上げます。



最終更新日 2010.09.01 17:08:53




インフォシーク iswebライト 終了のお知らせ - インフォシーク ユーザサポートからのお知らせ - 楽天ブログ(Blog)
http://plaza.rakuten.co.jp/usersupport/diary/201008250000/

237 :名無しさん@お腹いっぱい。:2010/09/08(水) 02:22:49
ファイルがあるように見せかけて
Server Error-wbcgiやFailed Connection.とか舐めてんのか

238 : ◆xs.m./NkkNFp :2010/09/09(木) 10:01:22
ブラウザ変えろカス

239 :名無しさん@お腹いっぱい。:2010/09/09(木) 10:42:36
>>238
ブラウザ(UA含む)はあんま関係無い

>>237
日時に間を置いてアクセスしろカス

240 : ◆xs.m./NkkNFp :2010/09/09(木) 15:21:30
なんだブラウザは影響なかったのか 火狐だと若干エラーが多い気がしててな
スマソ

241 :名無しさん@お腹いっぱい。:2010/09/09(木) 17:23:32
Firefoxは最近昔のHTTPの接続数を無視した数の接続をするようになったから
関係ないとは言い切れない。

242 :名無しさん@お腹いっぱい。:2010/09/26(日) 22:58:09
>>233
>>Poster: gojomo Date: July 06, 2010 02:53:07pm
>>Forum: web Subject: Re: Wayback Machine - Showing results for popular pages for 2010 but not 2009?

>>There was a very small index update last week. A result of this update is that some very-recent (as late as June
>> 2010) content is now available, even as most content from the last 24 months awaits a bulk update.

>>The relevant FAQ items (and small note atop each date-results page) have been updated to reflect
>>that this may sometimes happen.

>>- Gordon @ IA



243 :名無しさん@お腹いっぱい。:2010/11/01(月) 09:34:42
infoseek乙したのに全然残ってねぇな

244 :名無しさん@お腹いっぱい。:2010/11/12(金) 14:58:02
うおおおん・・・
何年も更新がないけど頻繁に見に行ってた小説サイトが急に消えて約4ヶ月、
移転前のURLを辿ったらいくつかの話が拾えて嬉しい・・・
一番好きだった話がNot in Archiveだったのは少し悲しいけど、それでも超嬉しい。
音沙汰がないけど気に入ってるサイトは、面倒くさがらずにこっそり保存しておこうと改めて思った。

245 :名無しさん@お腹いっぱい。:2010/11/26(金) 02:29:45
何度やってもServer Error-wbcgiがでるなぁ(´・ω・`)
>>244
その気持ち分るw
魚拓でもいんだけどね

246 :マグナ ◆i.K3ZM.pZo :2010/11/26(金) 15:36:17
インターネットアーカイヴはURLが分かる場合には有用だが分からない場合、つまり消えたサイトにあった文章等で覚えている場合はどうすればいいのだ?w

247 :名無しさん@お腹いっぱい。:2010/11/27(土) 00:44:42
それが一番困るよねw
ググっても出てこないし自分の場合、見たいサイトのリンク貼ってあるサイトを探してそこから一つずつ辿ったりしてるけど
ところで最近サイト重いよね

248 :名無しさん@お腹いっぱい。:2010/11/29(月) 15:48:28
これ簡単にアドレス入力してくれるFirefoxのアドオンってありますかね?

249 :名無しさん@お腹いっぱい。:2010/12/07(火) 03:12:48
>>248
「このリンクを蘇生」ってのでできるよ
ttps://addons.mozilla.org/ja/firefox/addon/2570/

250 :名無しさん@お腹いっぱい。:2010/12/13(月) 01:18:25
>>249
おーこんな便利なのがw
thxでした

251 :名無しさん@お腹いっぱい。:2011/01/06(木) 12:39:35
この記事って見れないですかね?
ttp://203.139.202.230/07yakyu/070708kouya01.htm

252 :名無しさん@お腹いっぱい。:2011/01/06(木) 14:52:58
>>251
とりあえずこのスレの範疇にある質問では無い事はわかった
せめて正確なタイトルわかんない?もしわかれば俺はもう少し探してみる

253 :名無しさん@お腹いっぱい。:2011/01/06(木) 15:02:12
>>251
あとこっちから質問したいんだけど、以前他のスレで同じ質問した事無い?
なんか昔に同じような記事の探し手伝いした覚えがある
マルチポストとかでツッコむ気は毛頭無いし(むしろ時効だろうしw)、ただ自分の記憶が正しいか知りたいだけなんだ
ぜひ頼む

254 :名無しさん@お腹いっぱい。:2011/01/07(金) 15:24:19
>>251
その日付のは無い様子。
ttp://web.archive.org/web/*/%68ttp://www.kochinews.co.jp/07yakyu/*
ttp://web.archive.org/web/*/%68ttp://203.139.202.230/07yakyu/*

255 :名無しさん@お腹いっぱい。:2011/01/08(土) 01:57:35
>>252
高知新聞の高校野球の記事なんですけど
タイトルは「・初戦から好ゲーム 高校野球県大会組み合わせ」です
メインのは見れるんですけどね
ttp://web.archive.org/web/*/http://203.139.202.230/07yakyu/07kousienfr.htm
>>253
初めてですw
>>254
やっぱり・・・困ったなぁ

256 :名無しさん@お腹いっぱい。:2011/01/23(日) 17:48:28
ここに保存してあるHPの全階層を楽に保存する方法ありますか。
HP保存のフリーソフトで保存できるのでしょうか。

257 :名無しさん@お腹いっぱい。:2011/01/26(水) 18:13:30
>>256そりゃあ出来るが時間かかる
頑張りましょう

258 :98:2011/01/28(金) 02:47:02
Wayback Machine Beta
ttp://waybackmachine.org

あまり GUI に凝ったのは好きじゃないなぁ。

259 :名無しさん@お腹いっぱい。:2011/01/28(金) 03:38:19
>>258
d

260 :98:2011/02/03(木) 00:33:54
Wayback Bachine Beta、 何気に良いかも。

キャッシュ取得時、 あるいは日付別キャッシュ一覧の表示の際、
本家ではデータや接続系のエラーが返されても、
Beta で試すとかなりの確率で取り出せてる。

ttp://web.archive.org/web/*sa_/%68ttp://www.color.org/
ttp://waybackmachine.org/*/%68ttp://www.color.org/
本家では 2008 年 8 月までだが、
Beta では 2009 年分も出てくる、 なんてこともある。

261 :98:2011/02/03(木) 00:46:47
それから、 HTTP のレスポンスヘッダの内容が
Beta ではかなり異なっている。

本家
例: ttp://web.archive.org/web/19991111085830/%68ttp://2ch.net/

Last-Modified: オリジナルのタイムスタンプ
Content-Length: スクリプト埋め込み後の長さ

Beta
例: ttp://replay.waybackmachine.org/19991111085830/%68ttp://2ch.net/

Last-Modified: (無し)
Content-Length: スクリプト埋め込みおよび文字セット変換後の長さ
X-Archive-Orig-Last-Modified: オリジナルのタイムスタンプ
X-Archive-Orig-Content-Length: オリジナルの長さ
その他、 オリジナルのサーバが返したと思われるレスポンスヘッダが、
頭に X-Archive-Orig- を付けて羅列されている。

そのほか、 HTML の場合の Content-Type は全て
text/html;charset=utf-8 になっている。
以前と違って、 今度は中身もコード変換されている。
変換元として使われた文字セットは
X-Archive-Guessed-Charset: ヘッダに記載されている。

262 :98:2011/02/06(日) 01:12:05
Beta 版のキャッシュを開いたとき、 キャッシュし損ねていた画像などは
元 URL の頭に ttp://liveweb.waybackmachine.org/ を付けた URL へリダイレクトされている。

例 ttp://liveweb.waybackmachine.org/%68ttp://hibari.2ch.net/test/read.cgi/esite/1189771222/

どうもこれはキャッシュプロキシとして動作しているようで、
前回のキャッシュから数分程度しか経っていなければそのキャッシュを返すが、
そうでない場合はオリジナルのサーバへ読みに行って、 取得した内容を返してくる。
HTML に挿入されるメッセージ (Here's a capture taken....) から察するに、
キャッシュされたデータは後日 Wayback Machine で公開されると思われる。

半年経たないと公開されない、 という制約はあるものの、
ウェブ魚拓と似たような使い方ができるかも。

263 :名無しさん@お腹いっぱい。:2011/02/07(月) 10:46:44
>>98
運営してるのって同じ団体?

264 :名無しさん@お腹いっぱい。:2011/02/15(火) 13:17:20
javascript:location.href='http://waybackmachine.org/*/'+location.href;

265 :名無しさん@お腹いっぱい。:2011/02/25(金) 00:27:19.47
この頃重すぎない?

266 :名無しさん@お腹いっぱい。:2011/02/26(土) 01:52:25.94
確かに重い
URL叩いてから具が出てくるまでえらい待たされる

267 :名無しさん@お腹いっぱい。:2011/03/02(水) 20:02:23.66
何かインターフェースが変わったw
まだβみたいだけど見づらくない?w

268 :名無しさん@お腹いっぱい。:2011/03/03(木) 15:15:10.55
糞見づらくなったな

269 :名無しさん@お腹いっぱい。:2011/03/04(金) 03:58:59.01
βのテストとかしてるのか分からんがエラーばっか出る・・・

270 :名無しさん@お腹いっぱい。:2011/03/04(金) 07:21:01.97
質問です。
現在使用中ブログ(FC2ブログ)のアーカイブ削除依頼したいのですが、
FC2ブログなのでrobots.txtをルートディレクトリに置けないようなので
直接info@archive.orgに削除依頼しようと思うのですが
やはり本人確認の要求があるのでしょうか?
本人確認の条件はどの程度の要求なのかも気になります
(住所や名前まで提示しなければならないのかなど)
それとも本人確認なしで削除依頼がすんなり通るのでしょうか?


271 :名無しさん@お腹いっぱい。:2011/03/04(金) 20:05:12.57
やったことないから分らんw
でも普通そんな情報まで提示しなくてもいいと思うけどな

272 :名無しさん@お腹いっぱい。:2011/03/04(金) 20:14:39.35
この前よりかなり見やすくなった感じ
普通のだと不具合なのかエラーで見れなくてもβだと見れるみたい

273 :名無しさん@お腹いっぱい。:2011/03/05(土) 01:23:15.11
水色の丸印で日にちは分りやすくなったけど更新された日の*印の代わりがまだないね

274 :名無しさん@お腹いっぱい。:2011/03/07(月) 00:16:25.22
>>256
Firefoxのスクラップブックってアドオンで掘り下げ階層選んで保存できるぞ

275 :名無しさん@お腹いっぱい。:2011/03/14(月) 16:27:19.13
http://www.archive.org/

なんかこっちのほうダウンしてるな

276 :名無しさん@お腹いっぱい。:2011/03/15(火) 01:27:32.06
502 Bad Gatewayとでるね

277 :名無しさん@お腹いっぱい。:2011/03/15(火) 13:38:45.70
ここ数か月の間に閉鎖したブログをいくつか読もうと>>1のアーカイブ(Wayback Machine Advanced Search)から検索してもほとんど出てきません。

ヒットしても09年のものまでしかみれないのですが、10年以降のキャッシュは見れないのでしょうか。

278 :名無しさん@お腹いっぱい。:2011/03/16(水) 10:04:33.35
10年以降は出てこないよね
というか09年もあんまり・・・
あとβテスト番の方が今は検出しやすくなってる感じはする

279 :名無しさん@お腹いっぱい。:2011/03/23(水) 17:58:05.04
ベータになってから重いわこればっかり出るわで散々だ
This URL has been excluded from the Wayback Machine.

前は見られてたのに・・・

280 :名無しさん@お腹いっぱい。:2011/03/25(金) 10:39:13.16
>>279
クラッシック使えよw

なんかアイコンがごみ箱になった

281 :名無しさん@お腹いっぱい。:2011/03/25(金) 10:43:51.69
よくみたら神殿だった・・・

282 :名無しさん@お腹いっぱい。:2011/04/03(日) 20:14:07.72
ttp://replay.waybackmachine.org/20030418074101/http://www.mars.dti.ne.jp/~opaku/zigzag/railway/download/opA900.zip
ここのzip見れる人いる?
俺はみれなかった

283 :98:2011/04/03(日) 20:49:02.94
>>282
そもそもキャッシュし損ねてるとか
ttp://waybackmachine.org/*/www.mars.dti.ne.jp/~opaku/zigzag/railway/download/*

284 :名無しさん@お腹いっぱい。:2011/04/20(水) 23:44:15.10
本家も糞使いにくいベータのUIになっちまった

285 :名無しさん@お腹いっぱい。:2011/04/24(日) 06:32:43.61
同じページにあるリンクでも見られるのと”Hrm.”になって見られないのがあるのはどうしてでしょうか?

286 :名無しさん@お腹いっぱい。:2011/04/25(月) 07:04:40.09
同じページからリンクされていても一部しかクロールされないのは良くある話

287 :名無しさん@お腹いっぱい。:2011/04/25(月) 08:37:13.32
さっきから全然繋がらないんだがどうよ

288 :名無しさん@お腹いっぱい。:2011/04/26(火) 18:21:54.37
俺もたまに同じことある
まだβだから色々とあるみたいだね

289 :名無しさん@お腹いっぱい。:2011/04/28(木) 05:22:34.15
Advanced Search(高度な検索)が利用できなくなって、駄目になったよな。
http://web.archive.org/collections/web/advanced.html

290 :名無しさん@お腹いっぱい。:2011/04/28(木) 05:24:12.25
検索結果のカレンダー表示も却って見づらい。元に戻すか、せめてClassicも並存してくれ。

291 :名無しさん@お腹いっぱい。:2011/05/05(木) 02:14:35.97
今まで見れた奴が見れなくなってる

うがあああああああああああああああああ

292 :名無しさん@お腹いっぱい。:2011/05/11(水) 18:59:02.47
www.red-jp.com/ten/chada0.htm
を見ようとしたら
Data Retrieval Failureって出てきたんだけど
これって日を改めれば見れるかも知れないの?

293 :98:2011/05/11(水) 21:22:15.54
>>292
ベータはどう?
ttp://web.archive.org/*/www.red-jp.com/ten/*

> これって日を改めれば見れるかも知れないの?
後日取り出せた経験はある。

294 :名無しさん@お腹いっぱい。:2011/05/12(木) 14:37:43.10
ベータが何のことか分からないけど
目的のページは見れたよ
ありがとう

295 :名無しさん@お腹いっぱい。:2011/05/21(土) 08:10:45.56
うーん、Niftyのサイト見れんなぁ
2005年付近の音楽サイトなんだけど、当時からブロックしてたんだっけ?

296 :名無しさん@お腹いっぱい。:2011/05/22(日) 16:39:10.77
>>289
http://classic-web.archive.org/collections/web/advanced.html

297 :名無しさん@お腹いっぱい。:2011/05/23(月) 11:43:35.01
新バージョンになってから接続が早くなった希ガス

298 :名無しさん@お腹いっぱい。:2011/05/30(月) 14:50:36.45
全く見れない。
どうなってるの〜

299 :名無しさん@お腹いっぱい。:2011/05/30(月) 15:38:23.45
んなこたぁない

300 :名無しさん@お腹いっぱい。:2011/05/30(月) 15:46:34.82
あらほんと
さっきは全く見れなかったのに、今は見れる
失礼しました

301 :名無しさん@お腹いっぱい。:2011/06/03(金) 16:25:02.37
Hrm.
Wayback Machine doesn't have that page archived.
It doesn't seem to be available on the live web, either.

このメッセージが出たらもう一生そのページは見れないの?
半年か一年経てば見れそうなページって別のメッセージが出ますか?

302 :名無しさん@お腹いっぱい。:2011/06/04(土) 04:23:53.49
一生か分らんが見れないみたいだね
あと09年以降が表示されるのはいつなんだろ

303 :名無しさん@お腹いっぱい。:2011/06/19(日) 18:29:33.52
それは2日

304 :名無しさん@お腹いっぱい。:2011/06/20(月) 11:54:49.85
使ったことないんだが、他国の人はwebciteを活用してるみたいだけど、
これ利用したことある人いますか?
フォームにurlを送れば確実に保存してくれるのかなあ?

http://www.webcitation.org/archive

305 :名無しさん@お腹いっぱい。:2011/06/20(月) 13:55:59.78
>>304
使ってみた。
ttp://www.webcitation.org/5zZewWlmT

メールアドレスの入力を求められるが、
「メールに記載された URL に再度アクセス」 というような操作も必要なく、
単にキャッシュ成功とアクセス用 URL の通知に利用されているだけの模様。

左上の時刻表示のタイムゾーンは UTC-4。

306 :名無しさん@お腹いっぱい。:2011/06/20(月) 18:28:26.39
>>305
右上

307 :名無しさん@お腹いっぱい。:2011/06/21(火) 11:12:00.70
キャッシュされたサイトのトップから入ると普通に読めるのに、途中から
直に入ると弾かれるページは、手動でURLを削る必要があるようだな
(途中のttp://を削ればOK)
面倒臭い…

308 :名無しさん@お腹いっぱい。:2011/06/21(火) 11:12:43.94
あ、>>307はInternet Archiveのことね

309 :名無しさん@お腹いっぱい。:2011/07/08(金) 09:49:46.19
オリジナルのファイルの日付が
取得出来なくなったような気がしますが(Downstair、iriaで確認)
みなさんどうやって取得されてますか

310 :名無しさん@お腹いっぱい。:2011/07/08(金) 15:54:46.31
>>309
1) ミラー (ttp://web.archive.bibalex.org) を使う
2) X-Archive-Orig-Last-Modified: ヘッダからタイムスタンプを読み出す (>>261)
この二択かと。

311 :名無しさん@お腹いっぱい。:2011/07/08(金) 22:45:48.32
>>310
どうもありがとうございます。ミラーが有ったんですね。

312 :名無しさん@お腹いっぱい。:2011/07/19(火) 10:25:36.86
リニューアル後は2006年分がバッサリ抜け落ちてるようだが、
キャッシュサーバに何かあったのか?

313 :名無しさん@お腹いっぱい。:2011/07/20(水) 00:00:16.79
>>312
> リニューアル後は2006年分がバッサリ抜け落ちてるようだが、
ほんと?

314 :名無しさん@お腹いっぱい。:2011/07/20(水) 00:31:58.44
サイトによるね
全てのキャッシュサーバから抜け落ちたわけじゃなさそう

315 :名無しさん@お腹いっぱい。:2011/07/21(木) 16:02:08.63 ?2BP(285)
http://liveweb.archive.org/
の次にキャッシュを取得させたいURL貼れば取得させられるみたいだね。

316 :名無しさん@お腹いっぱい。:2011/07/22(金) 19:04:24.11
改悪

317 :名無しさん@お腹いっぱい。:2011/07/27(水) 10:05:17.79
サーバーが応答しません、ファイルがありません、ロボット避け
これらをどうにかする方法はないものか…

318 :名無しさん@お腹いっぱい。:2011/07/28(木) 16:17:04.05
真っ当なサイトとしてやっていく限りは
ロボット避けは仕方ないな。

319 :名無しさん@お腹いっぱい。:2011/07/28(木) 21:57:41.06
真っ当なサイト(笑)

320 :名無しさん@お腹いっぱい。:2011/07/28(木) 22:03:00.66
笑ったところでロボットは残るよ

321 :名無しさん@お腹いっぱい。:2011/07/31(日) 19:47:21.01
先週くらいまで見れてたサイトのキャッシュ、今日見ようと思ったら
We were unable to get the robots.txt document to display this page.
The gateway to the live web is not available. Please try again later.
ってなって見れない
もう復活しないのかな…

322 :名無しさん@お腹いっぱい。:2011/07/31(日) 19:55:43.96
Please try again later.

323 :名無しさん@お腹いっぱい。:2011/08/25(木) 22:26:32.31
どのサイト見ても2009年から一切ログが無い。そんなものなのか

324 :名無しさん@お腹いっぱい。:2011/08/26(金) 09:54:59.40
fuq

325 :名無しさん@お腹いっぱい。:2011/09/03(土) 08:57:21.40
昔の方がいいなぁ
こういう所はGoogleと一緒だ

326 :名無しさん@お腹いっぱい。:2011/09/05(月) 13:44:55.34
Whoops!
We can't read the archived file for this date. The captured content may be garbled,
or we might not have the ability to display it.

これは時間が経てば復活するのかな...

327 :名無しさん@お腹いっぱい。:2011/09/12(月) 13:49:09.49
最近になってようやく2010年以降のログが出てきて安堵した

328 :名無しさん@お腹いっぱい。:2011/09/13(火) 07:06:44.93
2009年頃のまったく出てこないページは諦めるしかないのですかねえ

329 :名無しさん@お腹いっぱい。:2011/09/22(木) 20:10:08.43
アーカイブでJAVA使ったゲームを遊ぶのは無理?

330 :名無しさん@お腹いっぱい。:2011/09/25(日) 20:19:57.82
wayback2、info、lennyの三つに削除依頼のメール送ったけど対応してくれる気配が無い・・・。
おまけにrobots置いたURLを送るフォームも404エラーだし。

削除依頼出した人、どれくらいで対応してもらえた?

331 :330:2011/10/07(金) 12:31:44.24
infoの方からメール来て削除してもらえた!
三週間くらい掛かったかな
削除してもらえてよかった

332 :名無しさん@お腹いっぱい。:2011/10/08(土) 18:28:24.30
今まで見れてたサイトのキャッシュ、今日見ようとすると・・・
Bummer.

The machine that serves this file is down. We're working on it.
The Wayback Machine is undergoing scheduled maintenance Friday through Sunday, October 7-9. Most services will be offline during that time. See our blog for more information.
Would you like to try the previous or next date?

なんじゃこりゃあ!

333 :名無しさん@お腹いっぱい。:2011/10/08(土) 18:33:46.40
馬鹿ですか?
7-9日にメンテナンスってはっきり書いてるだろ

334 :名無しさん@お腹いっぱい。:2011/10/08(土) 21:01:20.95
こいつ恥ずかしすぎるwww

335 :名無しさん@お腹いっぱい。:2011/10/09(日) 08:37:25.42
見たいサイトのトップページは開けたけど
そこからページ内の各コンテンツへ飛ぶのは無理だった
これってやっぱどうやっても見れないもの?初歩的ですまん

336 :名無しさん@お腹いっぱい。:2011/10/09(日) 14:27:47.64
Internet Archiveってウェブ魚拓みたいにキャッシュ取得はできない?

337 :名無しさん@お腹いっぱい。:2011/10/10(月) 11:20:10.82
まだ見れないけど日本時間だから?

338 :名無しさん@お腹いっぱい。:2011/10/10(月) 15:38:41.50
まだ見れないね

339 :名無しさん@お腹いっぱい。:2011/10/10(月) 23:53:15.35
まだだね、遅いな

340 :名無しさん@お腹いっぱい。:2011/10/11(火) 23:01:58.24
見れるな
見たいページは見れなかったがorz

341 :名無しさん@お腹いっぱい。:2011/10/11(火) 23:34:59.34




ヤフチャ出会い世代ユザル人気No.1部屋

【30↑気まぐれな女達(BGM)】

   部屋主:oxxx_hikaru_xxxo

   部屋主代理:llla_little_eijilll











342 :名無しさん@お腹いっぱい。:2011/10/12(水) 17:43:53.82
Got an HTTP 302 response at crawl time

343 :名無しさん@お腹いっぱい。:2011/10/12(水) 19:36:24.02
レスポンス速くなって( ・∀・)イイ!!

344 :名無しさん@お腹いっぱい。:2011/10/14(金) 10:32:30.37
>>342
勝手にリダイレクトされてた以前の仕様よりは評価できる。

345 :名無しさん@お腹いっぱい。:2011/10/15(土) 00:50:12.90
うーん見れないのがあるわ

346 :名無しさん@お腹いっぱい。:2011/10/19(水) 09:33:40.28
         /:::,. -―-、::ー-、::>一ァ
         /:::/,. -=ニ:: ̄::\::\―i:、
        /:/::://::\::::::::\::::::,ヽ::::ヽ|、\
.       /:::|, イ:'、::ヽ::::\::::::::Xヽ:|ヘ:::::ヘ\,ゝ
      l/|:::::|::::::!、::\ー`ー-,ィf示ハ:::::ヘ、,ハ
     く,.イl:::::斗┼‐` ー    弋炒 ',:::::ハ:::l::|
       |/,!ヘ::::::ヘ:| ,ィf心         !:::::::l::|::!
      //:| |ヘ::::::ヘ代t炒   ` ノ   |:::::|:|_|リ    ageます・・・!
    く/l:::L|、::`:ー-ゝ    ‐'´     /イ/|:| ヽ
     |:!:,-、:::\f^ヽ:≧z. __ .. イハ: : リ| |
     l:|:{  ヽ:::;ム  マミ、: : \    ム: : :∨
     リ/\  ヽ,ム  ∨ヘ : : \ /: /ヘ: : :ヘ
     ,.- 、   \ ヽ〉  ヽ  \: : :\://ヘ: : :|
     ヽ、 \ | 〉       \ lヽ./^)、 : : |: : !
      丶、`¨     /  ァ'´ /: : ヽr:| : ハ
        `)      l     ,.イ、ヾニ二7イ |.ィ
      ⊂二´.. _      __/ /  ` ー-、_|/、__jニフ
           ヾー--='彡- '    /´:j:_}::::/一`
             `ーr'´      ,f-':j´:||`′
               /ヾ二トr‐_Tj-トイ : l:!┐
               /: : : : : : 丁´ : : /:/: ://: `\-、
           /: : : : : : : / : : : /:/: ://: : : : : :ヽ:\
        ,. -‐': : : : : : : :/ : _/::f: ://: : : : : : /ヽ7
        ヽ: : : : : : : : : :|: : : :/:::::|: :!:|: : : : :/   \



347 :名無しさん@お腹いっぱい。:2011/10/20(木) 01:17:52.75
このスレの住人なら一度は見てると思うが
ttp://www.archive.org/web/hardware.php
普通のPCで組んだ方が安上がりなのかねぇ。

348 :名無しさん@お腹いっぱい。:2011/10/22(土) 23:20:54.88
どのサイト見ても
We were unable to get the robots.txt document to display this page.
The gateway to the live web is not available. Please try again later.

って出る…先週は普通に見れたのに

349 :名無しさん@お腹いっぱい。:2011/10/22(土) 23:27:39.40
>>332といい何で馬鹿ばっかり湧くんだ?

Please try again later.

この程度の短文も理解できないってどんな教育受けたんだ????

350 :名無しさん@お腹いっぱい。:2011/10/22(土) 23:32:12.76
だって半日待ってるけど出てこないし

351 :名無しさん@お腹いっぱい。:2011/10/23(日) 11:05:50.51
1週間待っても出てこないなんてザラよね

352 :名無しさん@お腹いっぱい。:2011/10/25(火) 18:57:02.21
ttp://web.archive.org/web/***/http://***と表示したものを、
ttp://web.archive.org/web/***/だけ取り除いて表示してくれるFirefoxのアドオンってありますでしょうか?

353 :名無しさん@お腹いっぱい。:2011/10/25(火) 20:29:31.49
メンテナンスは終わったはずなのにまだBUMMERが出てるんだが・・・
待てばいつかは直るのか?

354 :名無しさん@お腹いっぱい。:2011/10/26(水) 14:27:56.39
直るものは直るよ
この間画像が出なかったがしばらくしたら復活してたってこともあったから。

>>352
そんなのより、Welcome to Waybackのロード画面を省略して、
すぐにアーカイブにアクセス出来るアドオンのほうが欲しい。wikipediaみたいに。

89 KB [ 2ちゃんねる 3億PV/日をささえる レンタルサーバー \877/2TB/100Mbps]

新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :


read.cgi ver 05.0.7.9 2010/05/24 アクチョン仮面 ★
FOX ★ DSO(Dynamic Shared Object)