Apache Spark:BigDataマシン学習
Sparkとは?
Scalable
Fast
Hot
Sparkの構成部品
Spark Core
Spark Streaming
Spak SQL
MLLib
GraphX
RDDs
RDDsの作成
nums = parallelize([1, 2, 3, 4]) # hard coding된 리스트를 RDD로 생성
sc.testFile("file:///c:/users/frank/gobs-o-text.txt") # 모든 row를 RDD로 전환(parse)
# or s3n://--> 아마존 s3 버켓, hdfs:// --> Hadoop
hiveCtx = HiveContext(sc) rows = hiveCtx.sql("SELECT name, age FROM users")
# hive형태의 파일을 부를때 사용. 쿼리문으로 row들을 뽑아올 수 있음
RDD's Transformation
map, flatmap
map()例
rdd = sc.parallelize([1, 2, 3, 4])
rdd.map(lambda x:x*x)
# result: 1, 4, 9, 16
rdd.map(lambda x:x*x)
# 파라미터를 풀어쓰면 다음과 같다.
def squareIt(x):
return x*x
rdd.map(squareIt(x))
filter
distinct
sample
その他:union,交差,減算,デカルト
RDD Actions
最近、データセット(またはDataFrame)構造はRDDよりも人気があります
Introduction MLLib
機械学習用Sparkコンポーネント
MLLib Capabilities
MLLib special data type
Vector
LabeledPoint
Rating
TF: Term Frequency
IDF: Inverse Document Frequency
TF-IDF
TF
>現在のページにおける単語の重要性を示す指標
TF-IFは、文書が単語のみで構成されていると仮定する
TF-IDFのアルゴリズム(シンプル)
(1)すべての単語を計算するTF-IF
(2)与えられた単語のTF-IF値を用いて文書をソートする.
(3)結果のエクスポート
Reference
この問題について(Apache Spark:BigDataマシン学習), 我々は、より多くの情報をここで見つけました https://velog.io/@hotmosit/Apache-Spark-Big-Data-머신러닝テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol