pykoala-A simple,smal and fast web crawler-Google Project Hosting

1730 ワード

http://code.google.com/p/pykoala/
pykoala-A simple,smal and fast web crawler-Google Project Hosting
[紹介]
pykoalaは簡単で小さくて速い「ネット爬虫モジュール」です。実際の世界では「コアラ」はゆっくりと動く可愛い生き物ですが、このpykoalaはとても速くて、使いやすいです。
pykoalaは簡単に爬虫類が必要なところに埋め込むことができます。いくつかの基本的な使い方を示します。
 
 #       
 >>> from pykoala import Koala
 >>> koalaBaby = Koala.Koala('http://www.cnbeta.com/')
 >>> for url in koalaBaby.go():
 ...   print url

#       ,   10
 >>> from pykoala import Koala
 >>> koalaBaby = Koala.Koala('http://www.cnbeta.com/')
 >>> for url in koalaBaby.go(maxDepth = 5):
 ...   print url
 

#      www.cnbeta.com/articles/   URL ,    URL .htm .jp(e)g   URL
 >>> entryFilter = dict()
 >>> entryFilter['Type'] = 'allow'
 >>> entryFilter['List'] = [r'www\.cnbeta\.com/articles/', ]
 >>> yieldFilter = dict()
 >>> yieldFilter['Type'] = 'allow'
 >>> yieldFilter['List'] = [r'\.htm
from pykoala import Korala>>koala Baby=Korala.Korala('http://www.cnbeta.com/',entryFilter,yield Filter>>for url in koalaBaby.go():….print url龛撹は、malto:先頭ではないURLだけをキャプチャすることができます。yFilter=dict(>>yFilter[Type]='deny>>yFilter[List]=>>>from pykoala import Korala>>koala Baby=Korala.Korala('http://www.cnbeta.com/',yield Filter=yFilter>>for url in koalaBaby.go():…print url
詳細な使い方はコードのドキュメントを参照してください。
 
使用問題、バグ報告、共同開発、技術交流…
連絡してください
  • Email/Gtalk:[email protected]
  • QQ:123721771