Githubからとった爬虫類のフレーム

1870 ワード

久しぶりに、あまり物を書かずに、GitHubから入手した様々な言語の爬虫類のフレームワークを皆さんに共有しました.
Python pythonはもちろん、持っている爬虫類のフレームは数え切れないほどある.
  • scrapyは、有名な爬虫類のフレームワークで、機能が強く、入門学習に必要な良薬です.多様な構成特性をサポートし、唯一残念ながら分布式の特性をサポートしていないため、redisをキューとするscrapy-redisという分布式爬虫フレームワークが誕生した.
  • pyspiderは、華人が書いた爬虫類のフレームワークであるべきで、サポートできる構成は非常に多く、分散もサポートされており、中間のメッセージキューを構成するだけでよい.
  • portia、可視化された爬虫類フレームワークは、プログラミング経験の少ない人にとってかなり勉強に適しています.
  • xcrawler、軽量級の爬虫フレーム.個人的には軽量級の爬虫類フレームワークのソースコードを読むことから簡単に手に入れることができ、浅く深く、より面白く学ぶことができます.
  • colaも、強力な分布式爬虫フレームワークですが、残念ながらpython 3以上はサポートされていません.
  • fetchman、国人が書いた爬虫類のフレームワークはgrequestsを採用して要求を併発している.ソースコードを見たことがあるので、わかりやすいので、初心者には実用的です.
  • gainは、``asyncio``を使用して非同期で這い出す軽量級爬虫類フレームワークである.コードは分かりやすく、勉強に役立ちます.

  • Java Javaはあまり触れていないので、知っている爬虫類のフレームは多くありません.
  • webmagic、これは国人が書いた爬虫類のフレームワークで、使いやすくて、強いです.ソースコードの読書体験も悪くないので、javaを書くことをお勧めします.
  • crawler 4 jは、比較的良い爬虫アーキテクチャであり、爬虫フレームワークの学習と理解に役立つ.
  • SeimiCrawler,分布式爬虫フレームワークもscrapyに啓発された.ダイナミックレンダリングをサポートするページ爬虫類.
  • elves、軽量級の爬虫類の枠組み、国人が書いた.学びやすく理解しやすい.

  • Node nodeはもっと接触していませんが、良いいくつかのフレームワークも手に入れました.
  • node-crawler、強力で流行しています.Cheerioというパケットを用いてウェブページ構造を解析した.
  • webster、高性能のNodeJs爬虫フレームワークで、ダイナミックにレンダリングされたコンテンツを這い出すことができます(headless Chrome).

  • C# C#は筆者がPythonを除いてよく知っている言語である.しかし、爬虫類のフレームが少ないのがかわいそうだ.ああ、ため息をつく.
  • DotnetSpiderは、全体のアーキテクチャがWebMagicScrapyを参照し、C#の中で比較的強力な存在である.現在は.net core 2.0をサポートしているので、C#が好きな人は遊びに行くことができます.Entity Frameworkをサポートするのはいいですね.
  • WebCrawler、国人が書いた軽量級の爬虫類のフレームワーク.勉強できる~~~
  • そうしましょう~次回はいつ文章を書くか分かりません.本を読み続けました!!!さようなら~~考えてみて、次は何か書いて遊びましょう.