F/Eプログラミング独学器(3)

3834 ワード

3週目の独学 python Webスクリプト(スクロール) mongodb スパルタコードクラブテキストリンク

第3週コアコンテンツ

Python,スクロール,mongody

Pythonの基礎文法

変数&基本演算

資料型

数字、文字型

リスト型

Dictionary型

Dictionary+List

関数

条件文

複文

Web scripting/スクロールとは?

スクロール(スクロール)

スクロールという言葉はネット爬虫類という言葉から始まります.Chrollerは、組織的で自動化された方法で世界のブロードバンドを閲覧するコンピュータプログラムです.(出典:ウィキペディア)

スクロールとは、スクロール者が行う作業を分類し、複数のサイトのページ(ドキュメント、htmlなど)を収集することです.
基本的に見つかったデータを保存し、検索するためにインデックスを行います.

Webスクリプト（キャプチャ）

シナリオは,HTTPによりサイトの内容を切り出し,所望の形状に加工する.

簡単に言えば、これはウェブサイトのデータを収集するすべての仕事を意味します.

スクロールはスクラッチ技術ともいえる.

mongoDB / Robo3T

MongoDBとは?

コンピュータでプログラムが表示されないようにするには、「データベース」ロールを使用します.

MongoDBは、NoSQLに分類されるプラットフォーム間でエンターテインメント向けのデータベースシステムです.MySQLのように、従来のテーブルベースのリレーショナルRDBMSではSQLは使用されません.

名前mongoは謙遜の略です.つまり「非常に大きなDB」という意味です.

Robo 3 Tとは?

で述べたように、mongodbはコンピュータ内でプログラムを非表示に呼び出すMySQLであり、robotでこれらのデータを可視化する役割を果たしています.

データベースを使用する理由

最終的な目的はデータを使いやすいようにすることです.

例えば、個人的に本を読むために買って帰る場合、「部屋に積む」と「本棚に整理して確認しやすい」のどちらが便利ですか?
要するに、もちろん<<本棚に整理されたもの>の方が使いやすい>
このように、DBは無数のプログラムや情報を整理する空間を提供し、よりよく使用するためだと考えています.

データベースの概念が見つかったら、SQLとNOSQLを整理します.

SQL VS NOSQL

ソース:スパランド3週目の要約セットをエンコード

3週目のタスクと成果物の作成

QUIZ!!

# 여기부터가 크롤링 기본세팅
import requests
from bs4 import BeautifulSoup

from pymongo import MongoClient
client = MongoClient('localhost', 27017)
db = client.dbsparta

# 타겟 URL을 읽어서 HTML를 받아오고,
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://www.genie.co.kr/chart/top200?ditc=D&ymd=20200403&hh=23&rtm=N&pg=1',headers=headers)


# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
# soup이라는 변수에 "파싱 용이해진 html"이 담긴 상태가 됨
# 이제 코딩을 통해 필요한 부분을 추출하면 된다.
soup = BeautifulSoup(data.text, 'html.parser')


# select를 이용해서, tr들을 불러오기
trs = soup.select('#body-content > div.newest-list > div > table > tbody > tr')

# trs (tr들) 의 반복문을 돌리기
for tr in trs :
    title = tr.select_one('td.info > a.title.ellipsis').text .strip()
    singer = tr.select_one('td.info > a.artist.ellipsis').text
    rank = tr.select_one('td.number').text[0:2] .strip()

    print(rank, title, singer)

3週目の課題で使う文

ローリングベース

import requests
from bs4 import BeautifulSoup

# 타겟 URL을 읽어서 HTML를 받아오고,
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
# soup이라는 변수에 "파싱 용이해진 html"이 담긴 상태가 됨
# 이제 코딩을 통해 필요한 부분을 추출하면 된다.
soup = BeautifulSoup(data.text, 'html.parser')

#############################
# (입맛에 맞게 코딩)
#############################
* 스파르타코딩클럽 3주차 요약본 출처 *

あとで用意する部分

1.符号化アルゴリズム:毎日単位で符号化を行い、どこで符号化を行うかを確定する
2.4～5週間のコース終了:2週間かかる場合があります
3.授業終了後:まず1週間復習し、自分のやり方でローカルサイトを作成し、その後REEXORバックエンドの授業を聞く
4.前職教育院推薦の授業:これを聞くかどうか考えています
5.プチアイテム:今年中に試してみましょう!
6.コード関連の学習グループを探す:私のせいか分からないけど、江原道の近くで探してみよう

後悔しているうちに、一歩でも前に進め!!

Reference

この問題について(F/Eプログラミング独学器(3)), 我々は、より多くの情報をここで見つけました https://velog.io/@sbg1011/FE-프로그래밍-독학기3

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

Baculaネットワークバックアップ環境構築

nodeJs -Error [ERR_HTTP_HEADERS_SENT]: Cannot set headers after they are sent to the client