Githubからとった爬虫類のフレーム
1870 ワード
久しぶりに、あまり物を書かずに、GitHubから入手した様々な言語の爬虫類のフレームワークを皆さんに共有しました.
Python scrapyは、有名な爬虫類のフレームワークで、機能が強く、入門学習に必要な良薬です.多様な構成特性をサポートし、唯一残念ながら分布式の特性をサポートしていないため、 pyspiderは、華人が書いた爬虫類のフレームワークであるべきで、サポートできる構成は非常に多く、分散もサポートされており、中間のメッセージキューを構成するだけでよい. portia、可視化された爬虫類フレームワークは、プログラミング経験の少ない人にとってかなり勉強に適しています. xcrawler、軽量級の爬虫フレーム.個人的には軽量級の爬虫類フレームワークのソースコードを読むことから簡単に手に入れることができ、浅く深く、より面白く学ぶことができます. colaも、強力な分布式爬虫フレームワークですが、残念ながら fetchman、国人が書いた爬虫類のフレームワークはgrequestsを採用して要求を併発している.ソースコードを見たことがあるので、わかりやすいので、初心者には実用的です. gainは、``asyncio``を使用して非同期で這い出す軽量級爬虫類フレームワークである.コードは分かりやすく、勉強に役立ちます.
Java webmagic、これは国人が書いた爬虫類のフレームワークで、使いやすくて、強いです.ソースコードの読書体験も悪くないので、 crawler 4 jは、比較的良い爬虫アーキテクチャであり、爬虫フレームワークの学習と理解に役立つ. SeimiCrawler,分布式爬虫フレームワークも elves、軽量級の爬虫類の枠組み、国人が書いた.学びやすく理解しやすい.
Node node-crawler、強力で流行しています. webster、高性能の
C# DotnetSpiderは、全体のアーキテクチャが WebCrawler、国人が書いた軽量級の爬虫類のフレームワーク.勉強できる~~~ そうしましょう~次回はいつ文章を書くか分かりません.本を読み続けました!!!さようなら~~考えてみて、次は何か書いて遊びましょう.
Python
python
はもちろん、持っている爬虫類のフレームは数え切れないほどある.redis
をキューとするscrapy-redisという分布式爬虫フレームワークが誕生した.python 3
以上はサポートされていません.Java
Java
はあまり触れていないので、知っている爬虫類のフレームは多くありません.java
を書くことをお勧めします.scrapy
に啓発された.ダイナミックレンダリングをサポートするページ爬虫類.Node
node
はもっと接触していませんが、良いいくつかのフレームワークも手に入れました.Cheerio
というパケットを用いてウェブページ構造を解析した.NodeJs
爬虫フレームワークで、ダイナミックにレンダリングされたコンテンツを這い出すことができます(headless Chrome
).C#
C#
は筆者がPython
を除いてよく知っている言語である.しかし、爬虫類のフレームが少ないのがかわいそうだ.ああ、ため息をつく.WebMagic
とScrapy
を参照し、C#
の中で比較的強力な存在である.現在は.net core 2.0
をサポートしているので、C#
が好きな人は遊びに行くことができます.Entity Framework
をサポートするのはいいですね.