コンピューターで学ぶデータ科学2

8281 ワード

FAQ


Q1. PythonとRはどの言語を学ぶべきですか?

#노트북 안에서 그래프를 그리기 위해
%matplotlib inline

# Import the standard Python Scientific Libraries
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# Suppress Deprecation and Incorrect Usage Warnings 
import warnings
warnings.filterwarnings('ignore')

question = pd.read_csv('https://raw.githubusercontent.com/corazzon/KaggleStruggle/master/kaggle-survey-2017/data/schema.csv')

# 판다스로 선다형 객관식 문제에 대한 응답을 가져 옴
mcq = pd.read_csv('https://raw.githubusercontent.com/corazzon/KaggleStruggle/master/kaggle-survey-2017/data/multipleChoiceResponses.csv', encoding="ISO-8859-1", low_memory=False)

sns.countplot(y='LanguageRecommendationSelect', data=mcq)
  • 多くの回答者が「Python」を多くの人が使用する言語として選んだ
  • RとSQLが続く
  • 人の回答者を基準に、Pythonが圧倒的な割合を占めた.
  • の回答者が現在従事している仕事の中で、データエンジニアが最も高く、次いでソフトウェア開発/エンジニアです.
  • Kaggleプレイヤーを対象に行ったアンケートなので、ほとんどがそうです.
  • 人の回答者のうち11830人が彼らのしたことに答えたが、答えなかった人も7000人前後、
  • 人だった.
    # 현재 하고 있는 일에 대한 응답을 해준 사람 중 Python과 R을 사용하는 사람
    # 응답자들이 실제 업무에서 어떤 언어를 주로 사용하는지 볼 수 있다.
    data = mcq[(mcq['CurrentJobTitleSelect'].notnull()) & (
        (mcq['LanguageRecommendationSelect'] == 'Python') | (
            mcq['LanguageRecommendationSelect'] == 'R'))]
    print(data.shape)
    plt.figure(figsize=(8, 10))
    sns.countplot(y='CurrentJobTitleSelect', 
                  hue='LanguageRecommendationSelect', 
                  data=data)

  • ほとんどのData ScientistはRではなくPythonを使用しています

  • ほとんどの職業人はRよりPythonを使っています

  • 統計学者はRをより多く使う唯一の人だ.学部の時、教授たちもPythonではなくRを主とした.

    Q2. 将来のデータ科学の分野で、どのような点に注目しますか?


  • 関連分野の業者でなくても、ビッグデータ、深さ学習、新しいネットワークなどの用語に詳しい.回答者によると、来年は最も面白い技術になるという.
  • データ科学ツール

    mcq_ml_tool_count = pd.DataFrame(
        mcq['MLToolNextYearSelect'].value_counts())
    mcq_ml_tool_percent = pd.DataFrame(
        mcq['MLToolNextYearSelect'].value_counts(normalize=True))
    
    mcq_ml_tool_df = mcq_ml_tool_count.merge(
        mcq_ml_tool_percent, left_index=True, right_index=True).head(20)
    mcq_ml_tool_df.columns = ['응답 수', '비율']
    mcq_ml_tool_df

    将来に注目するツールとしてTensorflowを選択します.練習するときに役に立つことがたくさんあるからだと思います.
  • 深さ学習が最も高く,次いでニューラルネットワーク,時計列などである.
  • は2017年にアンケート調査を行った.もうずいぶん時間が経ったので、しばらく考えてみると、多くの人の考えで過ぎたと思います.
  • Q3. データセンターはどこで勉強すればいいですか?