pykoala-A simple,smal and fast web crawler-Google Project Hosting
1730 ワード
http://code.google.com/p/pykoala/
pykoala-A simple,smal and fast web crawler-Google Project Hosting
[紹介]
pykoalaは簡単で小さくて速い「ネット爬虫モジュール」です。実際の世界では「コアラ」はゆっくりと動く可愛い生き物ですが、このpykoalaはとても速くて、使いやすいです。
pykoalaは簡単に爬虫類が必要なところに埋め込むことができます。いくつかの基本的な使い方を示します。
詳細な使い方はコードのドキュメントを参照してください。
使用問題、バグ報告、共同開発、技術交流…
連絡してください Email/Gtalk:[email protected] QQ:123721771
pykoala-A simple,smal and fast web crawler-Google Project Hosting
[紹介]
pykoalaは簡単で小さくて速い「ネット爬虫モジュール」です。実際の世界では「コアラ」はゆっくりと動く可愛い生き物ですが、このpykoalaはとても速くて、使いやすいです。
pykoalaは簡単に爬虫類が必要なところに埋め込むことができます。いくつかの基本的な使い方を示します。
#
>>> from pykoala import Koala
>>> koalaBaby = Koala.Koala('http://www.cnbeta.com/')
>>> for url in koalaBaby.go():
... print url
# , 10
>>> from pykoala import Koala
>>> koalaBaby = Koala.Koala('http://www.cnbeta.com/')
>>> for url in koalaBaby.go(maxDepth = 5):
... print url
# www.cnbeta.com/articles/ URL , URL .htm .jp(e)g URL
>>> entryFilter = dict()
>>> entryFilter['Type'] = 'allow'
>>> entryFilter['List'] = [r'www\.cnbeta\.com/articles/', ]
>>> yieldFilter = dict()
>>> yieldFilter['Type'] = 'allow'
>>> yieldFilter['List'] = [r'\.htm
from pykoala import Korala>>koala Baby=Korala.Korala('http://www.cnbeta.com/',entryFilter,yield Filter>>for url in koalaBaby.go():….print url龛撹は、malto:先頭ではないURLだけをキャプチャすることができます。yFilter=dict(>>yFilter[Type]='deny>>yFilter[List]=>>>from pykoala import Korala>>koala Baby=Korala.Korala('http://www.cnbeta.com/',yield Filter=yFilter>>for url in koalaBaby.go():…print url詳細な使い方はコードのドキュメントを参照してください。
使用問題、バグ報告、共同開発、技術交流…
連絡してください