究極のガイド究極のガイドは、データサイエンス
データサイエンスは、高度なデータ解析を行うためにデータを浄化し、集約し、操作するなどの分析のためのデータを準備するための科学的方法を使用する分野間の分野として定義することができます.この記事では、この素晴らしいフィールドでヘッドスタートを得るためにカバーすることができます様々なトピックに関するガイドを提供するつもりです.
1 Pythonへの入門
Pythonは高レベル汎用プログラミング言語です.そのデザイン哲学は重要なインデントを使用してコードの読みやすさを強調します.その単純な構造とその上の資格のために、データ科学とデータ分析のために非常に好ましいです.あなたは私のポストを訪問することができますこの素晴らしい言語に簡単に紹介を取得します.
あなたのPythonコードを実行するための迅速かつ簡単な方法は、アナコンダでJupyterノートブックを使用することでしょう.Jupyterノートブックは非常に簡単にデータ科学のタスクを実行するためにPythonライブラリを使用して簡単なPythonコードを書くことから進んでいるテキストエディタです.
アナコンダは、一方で、パッケージ管理と展開を簡素化するRとPythonプログラミング言語のオープンディストリビューションです.最初にanacondaをインストールする必要があります.
Here パイソンとアナコンダのためにJupyterノートにより多くの光を投げつけるブログ柱です.
ヒント:一度アナコンダがインストールされていて、VSコードに精通している場合は、Jupyterノートブックを拡張子としてインストールし、VSコードでJupyterノートブックを使用する(. ipynb)拡張子を使用して新しいファイルを作成できます.
ファイルを実行すると、ノートブックを実行する環境を選択するよう求められます.あなたのプロセスを滑らかにするベース環境を選択してください.
また、すべてのパッケージが事前にインストールされているので、はるかに簡単ですGoogle Colabを使用することができます、あなたがする必要があるすべてのインポートとそれらを使用するので、安定したネットワーク接続がある限り.あなたのコーディングプロセスを緩和するために基本的な権利を取得した後、このオプションを選択してください
データベース入門
したら、いくつかのPythonプロジェクトを試してみて、前方に移動して快適に感じるし、データベースについて学びます.
データベースは、単に記憶されて、電子的にアクセスされるデータのコレクションから成る.データは、データベースからさまざまな機能を実行するように依頼するクエリの助けを借りてデータベースから取得されます.関係データベースと非関係データベースの2種類が存在する.
リレーショナルデータベースは、通常、テーブルおよびデータが行および列の形でテーブルに格納される.例はSQL database .
非関係データベースもnoSQLデータベースとしてrefferredされます.これは、データを格納して取得するために人間の読み取り可能なformartを使用してJSONとして知られている形式でデータを格納します.データは、半コロンの助けを借りて互いから切り離されるキー値組を含んでいるオブジェクトのコレクションとして記憶される.上の例では、キーID、名前、および占有値を持つユーザーオブジェクトを持ちます.いくつかの非関係データベースMongodb and Amazon DynamoDB .user { 'id':'qwe245ert', 'name':'John', 'occupation':'Doctor' }
関係データベースと非関係データベースチェックアウトの違いに関する更なる洞察のためにthis ビデオ.
3 .データ利用のPythonライブラリの理解
これは常に私にとってエキサイティングな部分です、そして、私はそれがあなたを興奮させることを望みます.Pythonには、さまざまなデータサイエンスタスクを実行するために使用される非常に有用なライブラリがあります.したがって、これらのパッケージを理解することは、この分野でのあなたの進歩に不可欠です.これらのライブラリを使用するにはpip3 install library_name
それから、それを我々のファイルに輸入してください.
ライブラリを含めるパンダ 麻痺 マトプロップリブ シーフード ピルフォレスト パンダ
これはデータ解析で使用されるPythonパッケージまたはライブラリです.それはあなたのデータを使用して再生することができますデータ構造を提供し、あなたが望む構造.パンダは大部分のデータを扱う柔軟性と能力に優先します.
ほとんどの人はデータを分析するときに(df)としてdataframeを参照することを好む.パンダに付属するいくつかの機能には次のようなものがあります.
データセットを任意の形式で読み込むデータセットの一部を表示するdf.read_csv('url_of_the_excel_sheet')
何かを見つけるdf.head()
ソートdf.loc['column_name'] #locating using an integer df.iloc[column(s)]
ちょっと言及してください.チェックアウトthis ブログ一覧にもどるdf.sort_values('column_to_sort_by' , ascending=False)
b numpy
numpyはPythonで同じリストです.これは多次元配列EG 1 D、2 Dまたは3 D配列を格納するために使用されます.Numpyはリストの値よりも固定値を使用しているため、リストよりも優先的に使用されます.Numpy以下のストレージスペースは、データを格納しているすべてのブロックが互いに隣接しているという事実(連続したブロック)であるのに対し、リストでは、ブロックは遠く離れていて、ポインタはデータを格納するために使用されます.Numpyは私たちが必要なすべての数学を行うことができます.
このライブラリを使用すると、我々はリストを使用していないことができます上記のコードが生成、エラーです.しかし、numpyでは以下のようにします.a=[1,2,3,4] b=[4,5,6,7] a*b
我々は[ 4 , 10 , 12 , 28 ]を得るa=np.array([1,2,3,4]) b=np.array([4,5,6,7]) a*b
今すぐクリックhere Numpyから始める方法についての詳細情報を取得します.
c .マプロトゥリブ
これは、私たちのデータセットを理解し、さらに我々のデータセットを説明するために使用することができる図面に変換するオープンソースの描画ライブラリです.あなたは様々なグラフEGプロット、ヒストグラム、棒グラフ、円グラフと散布プロットを生成することができます.私が話していることに興味があるならthis チュートリアルフィードあなたの興味.
注意:このライブラリは、上記の2つのライブラリの結果としてデータをフィードします.要するに、それに適切なグラフをプロットし、それに数学的な操作を実行してデータを分析してください.
d . seaborn
これは、我々は魅力的な統計プロットを作成するために行列とデータグラムから情報を視覚化する場所です.これはMatplotlibの代用品ではなく、代用品です.要するに、それはより多くの味を我々のチャートに加えて、彼らをより魅力的に見えさせます.Seabornを使用するには、どのようにデータの視覚化に近づくかを理解する必要があります.
More info. .
今、上記のライブラリの機能を理解した後、我々は簡単にすべての必要なライブラリをインポートするPyForestと呼ばれる1つの素晴らしいライブラリを使用することができます.あの男はなんてクールなんだろう.#First install the library in your terminal pip3 install pyforest #Now write this from pyforest import * #You can veiw all imports by typing lazy_imports()
4 .選択したデータベースに接続する
Pythonの構文、ライブラリ、データベースを現在知っています.どのように我々は知識を組み合わせるし、クールな何かを思い付く.
はい、Pythonファイルをデータベースに接続することについて話しています.これは、私たちが定期的に格納し、取得するデータのコレクションで動作することを見て以来、非常に重要です.この投稿をチェックするpostgres database to python , Python and Dynamodb data and connecting to MYSQL .データベースを使用する場合、データのようないくつかの有用なテクニックを理解するようになりますdata flattening and how to flatten data into a table
そして、データの中にいくつかの一般的なエラーがあります.
私はこの記事は、データサイエンスを開始するのに役立ちます願っています.トピックはあなたを圧倒させてください.毎日を学ぶし、確かに1ヶ月以内にも良い場所になるでしょう.
Here トピックのコード例は、より多くの例が必要です.
ハッピーコーディング!Reference
この問題について(究極のガイド究極のガイドは、データサイエンス), 我々は、より多くの情報をここで見つけました https://dev.to/marrie/the-ultimate-guide-to-the-ultimate-guide-to-getting-started-in-data-science-cad
テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol