[python] lassieでWebページのメタデータをサクっととってくる
こんにちは。最近暑いですね。暑くなるとページ巡回して要素を抽出するのもうんざりします。ここはpythonのlassieを使ってさっさと済ませちゃいましょう。
lassie
Web Content Retrieval for Humans™
だそうです
installation
pip install lassie
pip install lassie
pipからいけます
usage
>> import lassie
>> fetched = lassie.fetch('http://www.youtube.com/watch?v=tkjbEqnp_0U')
>> import lassie
>> fetched = lassie.fetch('http://www.youtube.com/watch?v=tkjbEqnp_0U')
こんだけ。
中身はこんな感じ。
>> from pprint import pprint
>> pprint(fetched)
{'description': u'Recording of the July 12, 2013 webcast, "What\'s New in Riak 1.4"',
'images': [{'src': u'http://b.vimeocdn.com/ts/ 445/011/445011693_640.jpg',
'type': u'og:image'}],
'title': u"What's New in Riak 1.4",
'url': u'http://vimeo.com/71448923',
'videos': [{'height': 400,
'src': u'http://vimeo.com/moogaloop.swf?clip_id=71448923',
'type': u'application/x-shockwave-flash',
'width': 640},
{'height': 400,
'src': u'https://player.vimeo.com/video/71448923',
'width': 640}]}
タイトル、説明、(ここでは出てないけど)キーワード、画像、ビデオ等を抜き出して返してくれます。サムネ候補もタイプ付きで返してくれるのが心憎いですね。
暑い夏も穏やかに過ごせそうです。
dependencies
install_requires=[
'requests==1.2.3',
'beautifulsoup4==4.2.1',
'html5lib==1.0b3'
],
おなじみですね。
lassie
【名詞】【可算名詞】《スコットランド方言》 娘,少女; お嬢さん (⇔laddie).
[LASS+‐IE]
なるほど
えっとひょっとして
名犬ラッシー
「Lassie」は、英語では、「お嬢さん・少女」の意味の愛称的な言葉で、当然ラッシーは雌のコリーである。
知りませんでした。勉強になりますね。
Author And Source
この問題について([python] lassieでWebページのメタデータをサクっととってくる), 我々は、より多くの情報をここで見つけました https://qiita.com/studiomaestro/items/7d1dc3e4516e1ad193e5著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .