linux nutch 1.0インストール構成

2422 ワード

1,nutch 1.0をダウンロード
ダウンロード先:http://archive.apache.org/dist/nutch/あ、このファイルnutch-1.0.tar.gzをダウンロードします
 
2サーバへのアップロード
アップロード先:/home/www/,解凍nutch-1.0.tar.gz
#tar -xvf nutch-1.0.tar.gz
名前を変更
#mv nutch-1.0 nutch
 
3、プロファイルの変更
/home/www/nutchディレクトリの下でurlsを新規作成
#mkdir urls
urlディレクトリへ
#cd urls
新しいseed.txtファイルを作成し、捕まえるサイトのアドレスを書きます.
#touch seed.txt
#vim seed.txt
seed.txtファイルへの書き込みhttp://www.163.com
 
プロファイルの変更
vim/home/www/nutch/conf/crawl-urlfilter.txt
vim/home/www/nutch/conf/regex-urlfilter.txt
上の2つのファイルの末尾+を+^http://([a-z 0-9]*.)*163.comに変更します.
 
4,tomcatにパブリッシュ
tomcatは/usr/local/tomcatの場所にインストールされます
/home/www/nutch/nutch-1.0.warをtomcatディレクトリのwebapps下にコピー
#cp/home/www/nutch/nutch-1.0.war/usr/local/tomcat/webapps
tomcatの起動
#/usr/local/tomcat/bin/start.sh
tomcatのプロジェクトのプロファイルの変更
#vim/usr/local/tomcat/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml
次のコードに変更
<configuration>
<property>
        <name>http.agent.name</name>
        <value>nutch-1.0</value>
</property>
<property>
        <name>searcher.dir</name>
        <value>/home/www/nutch/crawl</value>
</property>
</configuration>

 この場所のhttp.agent.nameに注意して、ネット上の多くのインストール構成はこれを書いていません.これを書いていないと、最後のステップで結果が見つかりません.
以上のファイルを変更したらtomcatを再起動します
 
5,Webデータのキャプチャ
nutchルートディレクトリへ
#cd/home/www/nutch
キャプチャコマンドの実行
#bin/nutch crawl urls -dir crawl -depth 3 -topN 5
urls:以前に確立されたurlsがWebページをキャプチャしたファイルアドレスです.
2番目のcrawl:キャプチャされたコンテンツインデックスファイルが格納されている場所
depth:Webサイトのトップサイトを起点とする爬行深さをキャプチャするには
threads:同時スレッド数の指定
topN:1つのサイトに保存されている最大ページ数
 
Webページをキャプチャするときは、必ず欲しいサイトがpingできるように注意してください.pingできない場合は、/etc/resolv.confファイルに以下の内容を加えます.
nameserver 202.106.0.20
 
6、検索内容
開くhttp://192.168.1.99:8080/nutch-1.0/search.jsp、関連内容を入力して検索すれば、以下のページが得られます.
linux nutch1.0安装配置_第1张图片
これを見て大功を成し遂げた.