Pythonが出会ったtextとtext()



1.BeautifulSoupの.textメソッドとget_text()メソッドの違い
text値を使用する場合は、対応するget_を呼び出す必要があります.text(),
'cate': list(cate.stripped_strings)     obj.stripped_strings:高度なget_text()は、リストを付けてリスト化できます
soup.title
# The Dormouse's story
soup.title.string
# u'The Dormouse's story'

Beautiful Soupの効率を高める方法はlxmlを解析器として用いる.Beautiful Soupは、html 5 lib(補完)やPython内蔵の解析器よりもlxmlで解析器を作る方が速い.
 
2、Scrapy爬虫類
response.selector.xpath('//title/text()')#xpath抽出はテキストであり、@抽出テキストデータについては、セレクタを呼び出す必要があることを熟知している.extract()メソッド
最初に一致する要素のみを抽出するには、セレクタを呼び出すことができる.extract_first()
 
3、python requestsのcontentとtextメソッドの違い
1、resp.textはUnicode型のデータを返します.
2、resp.contentはbytes型,すなわちバイナリのデータを返す.
つまり、テキストを取りたい場合はr.textを使ってもいいです.
画像、ファイルを取得したい場合は、r.contentを使用します.(resp.json()はjson形式のデータを返します)
 
4、Python 3 encode()方法
str1=str.encode(encoding='UTF-8',errors='strict')

str2 = str.encode("GBK")