『Nutchノート』eclipse導入nutch-1.7

4281 ワード

ダウンロード  apache-nutch-1.7-src.zipバッグ  とapache-nutch-1.7-bin.zip包
http://apache.fayea.com/apache-mirror/nutch/1.7/apache-nutch-1.7-bin.zip
http://apache.fayea.com/apache-mirror/nutch/1.7/apache-nutch-1.7-src.zip
二、
1、Java Projectを作成します.
2、コピー nutch-1.7-srcはjavaのカバンの中のorgを包んで全体プロジェクトのsrcに置いて包みます.
3、コピー nutch-1.7-binバッグの中のconfフォルダからプロジェクトのsrcまで包んでください.
4、confディレクトリの右ボタン、Build Path→  Use as Source Folder
5、nutch-1.7-binバッグの中のlibバッグのすべてのjarをコピーしてプロジェクトlibの下にlibがないと新しいものを作ります.
6、これらのJarパケットを手動でBullid Pathに導入する必要があります.Libries」Add JARS...そしてプロジェクトlibの下のすべてのjarカバンを選択します.
pluginsをコンパイルしたくないなら、二を見て、pluginsをコンパイルしたいなら、三を見てください.
二、
1、コピー nutch-1.7-binパッケージの下のpluginsフォルダはプロジェクトのsrcパッケージの下にあります.
2、これまで、通常のプロジェクトは一つのファイルがエラーを報告しました.すなわち、StringUtil.javaファイルです.
3、プロジェクトのコードフォーマットを変更し、urf-8に変更し、上記のエラー解決を行います.
三、
1、nutch-1.7-srcパッケージをコピーします.src/pluginフォルダからプロジェクトsrcパッケージまで
2、図のように、Source foldersとしてpluginをすべてのjavaとtestを包む.ここにはたくさんあります.一つ一つチェックしてください.漏れません.Java Build Path.Source.Add Folder…
《Nutch笔记》eclipse导入nutch-1.7_第1张图片
3、testはユニットテストをするために使われていますが、実際には選択しなくてもいいです.ユニットテストをしないなら、チェックしないでtestを選ぶことができます.しかし、その後は中のすべてのtestを手動で削除します.ここではユニットテストによってコードが分かる構造、機能を全部導入します.設定が終わったらプロジェクト構造はこのようになります.
《Nutch笔记》eclipse导入nutch-1.7_第2张图片
4、ここにきて、プロジェクトのpluginパッケージの一部はエラーとして報告されています.このpluginは第三者のカバンを引用しています.マニュアルBuild Pathを導入する必要があります.このいくつかのカバンはnutch-1.7-bin/pluginsで包んでrome-09.jarを探しています.   、   nekohtml-09.5.jar  、   tagsoup-12.jar  、    javaswf.jar  、  atomaton-1.11-8.jar.
5、これまでのところ、通常のプロジェクトは一つのファイルがエラーを報告しました.すなわち、StringUtil.javaファイルです.
6、項目の符号化フォーマットを変更し、urf-8に変更し、上記のエラー解決.
四、
OKです.これで導入作業が完了しました.項目も間違えません.
1、実行を開始します.confで包んで、nutch-site.xmlを見つけました.    configrationノードに追加
<property>
        <name>http.agent.name</name>
        <value>Nutch-demo</value>
    </property>

<property>
        <name>plugin.folders</name>
        <value>./src/plugin</value>
    </property>
2、プロジェクトの下でurlsディレクトリを新設し(名前は自由)、中にtxtテキストファイルを新規作成し、中にいくつかのテスト用urlを入力し、一行に一つ.私の構造はこうです.
《Nutch笔记》eclipse导入nutch-1.7_第3张图片
3、srcパッケージの下でCrawl.javaファイルを見つけます.
Run as→  Run Configration→Agments 
Program argments入力:crawl urls-dir out-threads 20-depth 2
VM argments入力:-Xms 32 m-Xmx 800 m(注:メモリサイズを設定しています.設定しないとメモリオーバーフローが異常になります.)
《Nutch笔记》eclipse导入nutch-1.7_第4张图片
4、その後、Javaファイルを実行します.
windowsで実行するとエラーが発生します.hadoopの権限の問題です.
解決方法:ネットで一つのカバンをダウンロードして元のhadoop-core-1.1.0.jarのカバンを換えます.
ダウンロード先:http://download.csdn.net/detail/leave00608/7060765 5、ここまで順調に実行できるはずです.実行が終わったら、プロジェクトのワークスペースディレクトリの下でoutというディレクトリを見ることができるはずです.これはnutchのデフォルト出力ディレクトリです.
《Nutch笔记》eclipse导入nutch-1.7_第5张图片
注:本文のほとんどは出典です.http://blog.csdn.net/leave00608/article/details/21468871