scrapy爬虫類の基礎知識

2407 ワード

一、パス式



  
    Harry Potter
    J K. Rowling
    2005
    29.99
  
 

シングルスラッシュとダブルスラッシュの使用:
book store/bookは、book storeのサブ要素に属するすべてのbook要素を選択します.
//bookドキュメント内の場所にかかわらず、すべてのbookサブ要素を選択します.
book store//bookは、book storeの下にある場所にかかわらず、book store要素の子孫に属するすべてのbook要素を選択します.
//@lang lang langという名前のすべてのプロパティを選択します.
下付き文字の使用:
/book store/book[1]book storeサブエレメントに属する最初のbookエレメントを選択します.
/book store/book[last()]book storeサブエレメントに属する最後のbookエレメントを選択します.
/book store/book[last(-1]book storeサブ要素に属する最後から2番目のbook要素を選択します.
/book store/book[position()<3]最も前のbook store要素に属する2つのサブ要素のbook要素を選択します.
属性の使用:
//title[@lang]langという名前のプロパティを持つすべてのtitle要素を選択します.
//title[@lang='eng']すべてのtitle要素を選択し、engの値を持つlang属性を有します.
/book store/book[price>35.00]book store要素のすべてのbook要素を選択し、price要素の値は35.00より大きくする必要があります.
/book store/book[price>35.00]/titleは、book store要素のbook要素のすべてのtitle要素を選択し、price要素の値は35.00より大きい必要があります.
ワイルドカードの使用:
/bookstore/*bookstore要素のすべてのサブ要素を選択します.
//*ドキュメント内のすべての要素を選択します.
//title[@*]属性を持つtitle要素をすべて選択します.
いくつかのパスの使用方法を選択します.
パス式で「|」演算子を使用すると、複数のパスを選択できます.
//book/title|//book/price book要素のすべてのtitle要素とprice要素を選択します.
//title|//priceドキュメント内のすべてのtitle要素とprice要素を選択します.
/book store/book/title|//price book store要素に属するbook要素のすべてのtitle要素と、ドキュメント内のすべてのprice要素を選択します.
二、XPath演算子
|計算2つのノードセット//book|//cdは、bookとcd要素を持つすべてのノードセット+加算6+4 10-減算6-4 2*乗算6*4 24 div除算8 div 4 2=等しいprice=9.80 priceが9.80の場合、trueが返されます.priceが9.90の場合、falseが返されます.!=priceに等しくない!=9.80 priceが9.90の場合、trueが返されます.priceが9.80の場合、falseが返されます.price>9.80より大きいpriceが9.90の場合、trueが返されます.priceが9.80の場合falseが返されます.>=price>=9.80以上priceが9.90の場合はtrueを返します.priceが9.70の場合、falseが返されます.orまたはprice=9.80 or price=9.70 priceが9.80の場合はtrueを返します.priceが9.50の場合、falseが返されます.andとprice>9.00 and price<9.90 priceが9.80の場合、trueが返されます.priceが8.50の場合falseが返されます.mod計算除算の残数5 mod 2 1