コンピューターで学ぶデータ科学2
8281 ワード
FAQ
Q1. PythonとRはどの言語を学ぶべきですか?
#노트북 안에서 그래프를 그리기 위해
%matplotlib inline
# Import the standard Python Scientific Libraries
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
# Suppress Deprecation and Incorrect Usage Warnings
import warnings
warnings.filterwarnings('ignore')
question = pd.read_csv('https://raw.githubusercontent.com/corazzon/KaggleStruggle/master/kaggle-survey-2017/data/schema.csv')
# 판다스로 선다형 객관식 문제에 대한 응답을 가져 옴
mcq = pd.read_csv('https://raw.githubusercontent.com/corazzon/KaggleStruggle/master/kaggle-survey-2017/data/multipleChoiceResponses.csv', encoding="ISO-8859-1", low_memory=False)
sns.countplot(y='LanguageRecommendationSelect', data=mcq)
# 현재 하고 있는 일에 대한 응답을 해준 사람 중 Python과 R을 사용하는 사람
# 응답자들이 실제 업무에서 어떤 언어를 주로 사용하는지 볼 수 있다.
data = mcq[(mcq['CurrentJobTitleSelect'].notnull()) & (
(mcq['LanguageRecommendationSelect'] == 'Python') | (
mcq['LanguageRecommendationSelect'] == 'R'))]
print(data.shape)
plt.figure(figsize=(8, 10))
sns.countplot(y='CurrentJobTitleSelect',
hue='LanguageRecommendationSelect',
data=data)
ほとんどのData ScientistはRではなくPythonを使用しています
ほとんどの職業人はRよりPythonを使っています
統計学者はRをより多く使う唯一の人だ.学部の時、教授たちもPythonではなくRを主とした.
Q2. 将来のデータ科学の分野で、どのような点に注目しますか?
データ科学ツール
mcq_ml_tool_count = pd.DataFrame(
mcq['MLToolNextYearSelect'].value_counts())
mcq_ml_tool_percent = pd.DataFrame(
mcq['MLToolNextYearSelect'].value_counts(normalize=True))
mcq_ml_tool_df = mcq_ml_tool_count.merge(
mcq_ml_tool_percent, left_index=True, right_index=True).head(20)
mcq_ml_tool_df.columns = ['응답 수', '비율']
mcq_ml_tool_df
将来に注目するツールとしてTensorflowを選択します.練習するときに役に立つことがたくさんあるからだと思います.
Q3. データセンターはどこで勉強すればいいですか?
Reference
この問題について(コンピューターで学ぶデータ科学2), 我々は、より多くの情報をここで見つけました https://velog.io/@chaong309/캐글로-배우는-데이터-사이언스テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol