반응형
from pyspark.sql import SparkSession
from pyspark.sql.types import IntegerType, StringType, ArrayType, StructField, StructType
# 기본 데이터 생성
data = [
[1, "Jules", "Damji", "asdv", "1/4/2016", 4536, ["twitter", "LinkedIN"]],
[2, "Brooke", "asi", "asdv", "1/4/2017", 4546, ["twitter", "LinkedIN", "FB"]],
[3, "Jules", "Damji", "asdv", "1/4/2018", 4556, ["twitter", "LinkedIN", "web"]]
]
# main
if __name__ == "__main__":
spark = (SparkSession
.builder
.appName("Example-3_6")
.config("spark.driver.bindAddress", "127.0.0.1")
.getOrCreate())
# dataframe 생성을 위한 스키마 정의
schema = StructType([
StructField('Num', IntegerType(), True),
StructField('First', StringType(), True),
StructField('Last', StringType(), True),
StructField('Url', StringType(), True),
StructField('Published', StringType(), True),
StructField('Hits', IntegerType(), True),
StructField('Campaigns', ArrayType(StringType()), True)
])
# dataframe 생성
blogs_df = spark.createDataFrame(data, schema)
# dataframe show
blogs_df.show()
# dataframe 처리에 사용된 스키마 출력
print(blogs_df.printSchema())
콘솔에서 해당 프로그램을 실행하여 나온 결과입니다.
'Apache > Apache Spark' 카테고리의 다른 글
SQL 테이블과 뷰 (0) | 2023.08.20 |
---|---|
Spark SQL과 데이터 프레임 (0) | 2023.08.20 |
Spark의 구조 확립 (0) | 2023.08.04 |
스파크 애플리케이션 개념의 이해 (0) | 2023.07.31 |
Apache Spark란? (0) | 2022.07.20 |