文章详情页

SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程

浏览：101日期：2024-07-12 15:04:25

目录1.使用IDEA开发Spark SQL1.1创建DataFrame/DataSet1.1.1指定列名添加Schema1.1.2StructType指定Schema1.1.3反射推断Schema1.使用IDEA开发Spark SQL1.1创建DataFrame/DataSet

1、指定列名添加Schema

2、通过StrucType指定Schema

3、编写样例类，利用反射机制推断Schema

1.1.1指定列名添加Schema

//导包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//代码// 1.创建SparkSession val spark = SparkSession.builder().master('local[*]').appName('sql').getOrCreate()// 2.使用spark 获取sparkContext 上下文对象 val sc = spark.sparkContext// 3.使用SparkContext 读取文件并按照空格切分返回RDD val rowRDD: RDD[(Int, String, Int)] = sc.textFile('./data/person.txt').map(_.split(' ')).map(x=>(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类 import spark.implicits._//5.将RDD 转换为DataFrame 指定元数据信息 val dataFrame = rowRDD.toDF('id','name','age')//6.数据展示 dataFrame.show()1.1.2StructType指定Schema

//导包import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}//编写代码//1.实例SparkSession val spark = SparkSession.builder().master('local[*]').appName('sql').getOrCreate()//2.根据SparkSession获取SparkContext 上下文对象 val sc = spark.sparkContext// 3.使用SparkContext读取文件并按照空开切分并返回元组 val rowRDD = sc.textFile('./data/person.txt').map(_.split(' ')).map(x=>Row(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类 import spark.implicits._//5.使用StructType 添加元数据信息 val schema = StructType(List( StructField('id', IntegerType, true), StructField('name', StringType, true), StructField('age', IntegerType, true) ))//6.将数据与元数据进行拼接返回一个DataFrame val dataDF = spark.createDataFrame(rowRDD,schema)//7.数据展示 dataDF.show()1.1.3反射推断Schema

//导包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//定义单例对象 case class Person(Id:Int,name:String,age:Int)//编写代码//1.实例sparkSession val spark = SparkSession.builder().master('local[*]').appName('sql').getOrCreate()//2.通过sparkSession获取sparkContext 上下文对象 val sc = spark.sparkContext//3.通过sparkContext 读取文件并按照空格切分将每一个数据保存到person中 val rowRDD: RDD[Person] = sc.textFile('./data/person.txt').map(_.split(' ')).map(x=>Person(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类 import spark.implicits._//5.将rowRDD转换为dataFrame val dataFrame = rowRDD.toDF() //6.数据展示 dataFrame.show()

到此这篇关于SparkSQL使用IDEA快速入门DataFrame与DataSet的文章就介绍到这了,更多相关SparkSQL快速入门内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网！

IDEA

上一条：IDEA中Services栏不显示的解决方案小结下一条：IDEA 开发配置SparkSQL及简单使用案例代码

相关文章：

1. ASP基础入门第三篇(ASP脚本基础)2. 读大数据量的XML文件的读取问题3. css代码优化的12个技巧4. 利用CSS3新特性创建透明边框三角5. 前端从浏览器的渲染到性能优化6. 无线标记语言(WML)基础之WMLScript 基础第1/2页7. ASP实现加法验证码8. ASP删除img标签的style属性只保留src的正则函数9. PHP循环与分支知识点梳理10. 解析原生JS getComputedStyle

排行榜

					
					IntelliJ IDEA导入jar包的方法
IntelliJ IDEA导出项目的方法
Docker容器网络端口配置过程详解
django从后台返回html代码的实例
idea设置自动导入依赖的方法步骤
python实现线性回归算法
IntelliJ IDEA导入项目的方法
基于SpringBoot bootstrap.yml配置未生效的解决
Docker容器如何更新打包并上传到阿里云
ASP.NET MVC使用异步Action的方法
Vue如何提升首屏加载速度实例解析
				

热门标签