'컴퓨터공학/빅데이터시스템' 카테고리의 글 목록

Create DataFrame from Dictionary Array from pyspark.sql import Row valuesA = [('Pirate',1),('Monkey',2),('Ninja',3),('Spaghetti',4)] rdd1 = sc.parallelize(valuesA) rddA = rdd1.map(lambda x: Row(name = x[0], id = x[1])) TableA = sqlContext.createDataFrame(rddA) # TableA1 = spark.createDataFrame(valuesA, ['name', 'id']) valuesB = [('Rutabaga',1),('Pirate',2),('Ninja',3),('Darth Vader',4)] rdd2 = s..

컴퓨터공학/빅데이터시스템 2019. 12. 7. 12:17

중간고사 정리

HDFS(Hadoop Distributed File System) : Cluster에 데이터를 저장 Map Reduce : Cluster의 데이터를 처리 RDD(Resilent Distributed Dataset) - Core data structure in Spark - Distributed, resilient, immutable(수정이 안됨) - lazy evaluated : evaluation command가 나올 때 evaluation된다. - Abstract Data Set - Distribution은 System이 수행함. - Fault가 발생하면 System이 복구함. Big Issues in Distributed System Fault Tolerant : Distributed PC에 고장이..

컴퓨터공학/빅데이터시스템 2019. 10. 15. 20:35

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

글 보관함

데니의 Techlog

티스토리툴바