文章详情页

IDEA 开发配置SparkSQL及简单使用案例代码

浏览：4日期：2024-07-12 16:26:18

1.添加依赖

在idea项目的pom.xml中添加依赖。

<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.0.0</version></dependency>2.案例代码

package com.zf.bigdata.spark.sqlimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object Spark01_SparkSql_Basic { def main(args: Array[String]): Unit = {//创建上下文环境配置对象val sparkConf = new SparkConf().setMaster('local[*]').setAppName('sparkSql')//创建 SparkSession 对象val spark = SparkSession.builder().config(sparkConf).getOrCreate()// DataFrameval df: DataFrame = spark.read.json('datas/user.json')//df.show()// DataFrame => Sql//df.createOrReplaceTempView('user')//spark.sql('select * from user').show()//spark.sql('select age from user').show()//spark.sql('select avg(age) from user').show()//DataFrame => Dsl//如果涉及到转换操作，转换需要引入隐式转换规则，否则无法转换，比如使用$提取数据的值//spark 不是包名，是上下文环境对象名import spark.implicits._//df.select('age','username').show()//df.select($'age'+1).show()//df.select(’age+1).show()// DataSet//val seq = Seq(1,2,3,4)//val ds: Dataset[Int] = seq.toDS()// ds.show()// RDD <=> DataFrameval rdd = spark.sparkContext.makeRDD(List((1,'张三',10),(2,'李四',20)))val df1: DataFrame = rdd.toDF('id', 'name', 'age')val rdd1: RDD[Row] = df1.rdd// DataFrame <=> DataSetval ds: Dataset[User] = df1.as[User]val df2: DataFrame = ds.toDF()// RDD <=> DataSetval ds1: Dataset[User] = rdd.map { case (id, name, age) => {User(id, name = name, age = age) }}.toDS()val rdd2: RDD[User] = ds1.rddspark.stop() } case class User(id:Int,name:String,age:Int)}

PS：下面看下在IDEA中开发Spark SQL程序

IDEA 中程序的打包和运行方式都和 SparkCore 类似，Maven 依赖中需要添加新的依赖项：

<dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.11</artifactId><version>2.1.1</version></dependency>一、指定Schema格式

import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.types.StructTypeimport org.apache.spark.sql.types.StructFieldimport org.apache.spark.sql.types.IntegerTypeimport org.apache.spark.sql.types.StringTypeimport org.apache.spark.sql.Rowobject Demo1 { def main(args: Array[String]): Unit = { //使用Spark Session 创建表 val spark = SparkSession.builder().master('local').appName('UnderstandSparkSession').getOrCreate() //从指定地址创建RDD val personRDD = spark.sparkContext.textFile('D:tmp_filesstudent.txt').map(_.split('t')) //通过StructType声明Schema val schema = StructType( List(StructField('id', IntegerType),StructField('name', StringType),StructField('age', IntegerType))) //把RDD映射到rowRDD val rowRDD = personRDD.map(p=>Row(p(0).toInt,p(1),p(2).toInt)) val personDF = spark.createDataFrame(rowRDD, schema) //注册表 personDF.createOrReplaceTempView('t_person') //执行SQL val df = spark.sql('select * from t_person order by age desc limit 4') df.show() spark.stop() }}二、使用case class

import org.apache.spark.sql.SparkSession//使用case classobject Demo2 { def main(args: Array[String]): Unit = { //创建SparkSession val spark = SparkSession.builder().master('local').appName('CaseClassDemo').getOrCreate() //从指定的文件中读取数据，生成对应的RDD val lineRDD = spark.sparkContext.textFile('D:tmp_filesstudent.txt').map(_.split('t')) //将RDD和case class 关联 val studentRDD = lineRDD.map( x => Student(x(0).toInt,x(1),x(2).toInt)) //生成 DataFrame，通过RDD 生成DF,导入隐式转换 import spark.sqlContext.implicits._ val studentDF = studentRDD.toDF //注册表视图 studentDF.createOrReplaceTempView('student') //执行SQL spark.sql('select * from student').show() spark.stop() }}//case class 一定放在外面case class Student(stuID:Int,stuName:String,stuAge:Int)三、把数据保存到数据库

import org.apache.spark.sql.types.IntegerTypeimport org.apache.spark.sql.types.StringTypeimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.types.StructTypeimport org.apache.spark.sql.types.StructFieldimport org.apache.spark.sql.Rowimport java.util.Propertiesobject Demo3 { def main(args: Array[String]): Unit = { //使用Spark Session 创建表 val spark = SparkSession.builder().master('local').appName('UnderstandSparkSession').getOrCreate() //从指定地址创建RDD val personRDD = spark.sparkContext.textFile('D:tmp_filesstudent.txt').map(_.split('t')) //通过StructType声明Schema val schema = StructType( List(StructField('id', IntegerType),StructField('name', StringType),StructField('age', IntegerType))) //把RDD映射到rowRDD val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1), p(2).toInt)) val personDF = spark.createDataFrame(rowRDD, schema) //注册表 personDF.createOrReplaceTempView('person') //执行SQL val df = spark.sql('select * from person ') //查看SqL内容 //df.show() //将结果保存到mysql中 val props = new Properties() props.setProperty('user', 'root') props.setProperty('password', '123456') props.setProperty('driver', 'com.mysql.jdbc.Driver') df.write.mode('overwrite').jdbc('jdbc:mysql://localhost:3306/company?serverTimezone=UTC&characterEncoding=utf-8', 'student', props) spark.close() }}

以上内容转自：https://blog.csdn.net/weixin_43520450/article/details/106093582作者：故明所以

到此这篇关于IDEA 开发配置SparkSQL及简单使用案例代码的文章就介绍到这了,更多相关IDEA 开发 SparkSQL内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网！

IDEA

上一条：SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程下一条：IDEA 使用 SpotBugs 找出你代码中的bug问题

相关文章：

1. xml中的空格之完全解说2. asp读取xml文件和记数3. IE6/IE7/IE8/IE9中tbody的innerHTML不能赋值的完美解决方案4. 利用CSS制作3D动画5. jsp+servlet简单实现上传文件功能（保存目录改进）6. 匹配模式 - XSL教程 - 47. WML语言的基本情况8. 小技巧处理div内容溢出9. jsp cookie+session实现简易自动登录10. xpath简介_动力节点Java学院整理

排行榜

					
					docker容器调用yum报错的解决办法
利用CSS制作3D动画
asp读取xml文件和记数
jsp cookie+session实现简易自动登录
idea自定义快捷键的方法步骤
IE6/IE7/IE8/IE9中tbody的innerHTML不能赋值的完美解决方案
匹配模式 - XSL教程 - 4
Spring MVC+ajax进行信息验证的方法
不使用XMLHttpRequest对象实现Ajax效果的方法小结
xml中的空格之完全解说
AspNetCore&MassTransit Courier实现分布式事务的详细过程
				

热门标签