WebCrawlerの最近のブログ記事

ちょっと、robots.txtのCrawl-delay ディレクティブについて調べてました。

ていうか、robots.txtの仕様を策定してるのはどこ?
一番信頼できるまとまった仕様なりRFCなりはどこにあるんだろう?

NAVERが2007年にも日本に再上陸を狙っているらしい。

・スラッシュドット ジャパン | Naverが日本再上陸か?
http://slashdot.jp/article.pl?sid=06/08/09/0752259

SEE:
dloader(NaverRobot)/1.5 (robot)

2004/04からこのblogに新しいgoogleのロボットが来はじめました。

Googlebot/Test+(+http://www.googlebot.com/bot.html)

「Googlebot/2.1」は「HTTP/1.0」だったけど、「Googlebot/Test」は「HTTP/1.1」で接続してきています。
「HTTP/1.1」に移行準備中なんですかね。

JavaScriptを読むとかいう噂があるようです。

2004/03からこのblogに新しいgoogleのロボットが来はじめました。

Googlebot-Image/1.0+(+http://www.googlebot.com/bot.html)

Googleのイメージ検索用のロボットっぽい。
最近、画像を載せることが多くなってきたからなぁ。

「MagpieRSS/0.51+(+http://magpierss.sf.net;+No+cache)」というロボット(UserAgent)からのアクセスがありました。
アクセス元は「list.myblog.jp」でした。

・MyblogList
http://list.myblog.jp/

MyblogListはお気に入りのblogListを作成し、
1.Listの更新情報を自分のblogに表示できる記事更新通知型LinkListサービス
2.Listの最新記事を簡単に閲覧できるブラウザ型RSSリーダーサービス の2つのサービスをかね添えたサービスです。
MyblogList

使用するには無料の会員登録が必要です。
ここから来るって事は、誰かが登録してくれてるって事かな?

「Baiduspider+(+http://www.baidu.com/search/spider.htm)」というロボットがきていました。

・baiduSpiderよくある問題の解答
http://www.baidu.com/search/spider.htm
中国語サイトみたい。

・baiduSpiderよくある問題の解答
http://www.excite.co.jp/world/url_cn/body/?wb_url=http%3A%2F%2Fwww.baidu.com%2Fsearch%2Fspider.htm&wb_lp=CHJA
ウェブページ翻訳(Excite)したもの。

検索フォームがあるページは、http://www.baidu.com/

「Bloglines/2.0+(http://www.bloglines.com;+1+subscriber)」というロボットがきていました。

・Bloglines | Free, Web-Based News Aggregator
http://www.bloglines.com/

お気に入りのblogなどのRSSを登録しておくと、最新のエントリーを表示してくれる無料サービスサイトっぽい。
RSSリーダソフトをインストールしなくても同等のサービスを受けられる。
複数のパソコンを使ってる人はどのパソコンでも同じ環境を使えるので便利そう。
会員登録は必要。
英語サイトだけど、日本語のエントリーにも対応してるらしい。

ここからcrawlerが来るって事は、誰かが私のblogを登録してるって事かな?

「Zao/0.2 (http://www.kototoi.org/zao/)」というロボットがきていました。

東大の研究目的のcrawler。
Kototoi Projectの一部。

以前は、「Windows Memory Diagnostic」でトップでヒットした。
今は、約300件ヒットするが、その中には含まれていない。

「sshd cygwin」でも上位で引っかかった。
今は、約230件ヒットするが、その中には含まれていない。

リンクされている数が少ないとだめなのかな。

それ以前に、このblogはほとんどまったくヒットしなくなったっぽい。
来てくれる人もほんとにわずかになってしまった。
悲しい。

SEO(Search Engine Optimization = 検索エンジン最適化)でもしようかな?
時間がないので、時間ができたら。

今日、Googleのbot君が沢山にやってきました。
今回は4回目と言えばいいのだろうか?
2回目と3回目は、数回来ただけで、来なくなってしまいました。
サイトの登録 / 削除 (www.google.com) に、また来るように頼んでおいたのがよかったのかな?
だとすると、頼んでから10日で来たことになります。
SEE:
Googleのbot、三度やってきた (このblogより)

新しいページも登録されたはずなので、どんな検索キーワードでやってくるのか、新しいどのエントリーが人気があるのか、楽しみです。

今日、Googleのbot君がやってきました。
5日ぶり。
SEE:
Googleのbot、再びやってきた (このblogより)

昨日、Googleのbot君が再びやってきました。

前回最後に来たのは2003/10/04だったから、10日ぶり。
そんなものなのかな?

「dloader(NaverRobot)」さんがきてました。
韓国の Naver という会社の巡回ロボットらしいです。

「dloader(NaverRobot)」はDoSまがいの事をするrobotらしいので、はじこうと思います。

相対パスをうまく解釈できなくて、存在しないパスにもアクセスしてきて、robots.txtは読むけれど無視していって、IPアドレスを変えてきて、UAを偽ってくると聞いた。。。
どうやってはじこうかな。。。

(2005/01/12 追記 ここから)
・検索サービス終了のお知らせ
http://forum.naver.co.jp/board.php?p_idboard=top_info&p_work=detail&p_total=143&p_no=160&p_choice=&p_item=&p_page=1
とりあえず、日本語のNAVER「検索サービス」は終了するらしい。
(2005/01/12 追記 ここまで)

「ia_archiver」さんがいらっしゃいました。

・Internet Archive: Wayback Machine
http://www.archive.org/web/web.php

ここのサイトの方らしい。
古いWEBコンテンツも大事にとっておいてくれるらしい。

別に悪さはしないけど、昔のやつをほじくられるのも恥ずかしいので、はじいておこう。
幸いrobots.txtは読んでいるので、以下を追加。

User-Agent: ia_archiver
Disallow: /

数日前からGoogleのbot君がクロールに来てました。
「Googlebot/2.1+(+http://www.googlebot.com/bot.html)」君。

今朝から検索され始めました。
みなさんどんな検索をしてくるんでしょうか?
ちょっと楽しみ。

ちなみに、「fly/6.01 libwww/4.0D」君も来てました。
これは、SINET学術ネットワークのlibwww-perlを使ったperlスクリプトのようです。
自動巡回してるようですが、検索エンジン系かな?
(2003/10/13 追記)
http://www.sinet.ad.jp/の方っぽいです。

このアーカイブについて

このページには、過去に書かれたブログ記事のうちWebCrawlerカテゴリに属しているものが含まれています。

前のカテゴリはSQLです。

次のカテゴリはWEBサーバです。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

最近のコメント

ike on Cygwinのddコマンドでisoイメージを作成する: みんさん なるほど。 CD-ROMのブ
みん on Cygwinのddコマンドでisoイメージを作成する: 文中、 dd bs=1024k if=/
ike on ゴミ箱から削除されたとき、復元不可能にするツールってないかな?: double_starさん。お久しぶりで
double_star on ゴミ箱から削除されたとき、復元不可能にするツールってないかな?: どうも私も忘れてました。説明不足ですみま
ike on ゴミ箱から削除されたとき、復元不可能にするツールってないかな?: double_starさん。はじめまして
double_star on ゴミ箱から削除されたとき、復元不可能にするツールってないかな?: はじめまして。おはようございます(笑)
ike on Startup Control Panel / StartupMonitor: ぷちさん、こんにちは。 「プログラムの
ぷち on Startup Control Panel / StartupMonitor: 私はインストーラーバージョン(英語)でコ
ike on 第05回まっちゃ445勉強会: あ、ゆまのさん。補足ありがとうございます
ゆまの on 第05回まっちゃ445勉強会: >どの本を使ったとかも話してくれたけど、
more...
Powered by Movable Type 4.261