文章详情页

JAVA spark创建DataFrame的方法

浏览：5日期：2022-08-25 17:52:40

述说正传，接下来开始说正事。

以前用Python和Scala操作Spark的时候比较多，毕竟Python和Scala代码写起来要简洁很多。

今天一起来看看Java版本怎么创建DataFrame，代码写起来其实差不多，毕竟公用同一套API。测试数据可以参考我之前的文章。

先来总结下Spark的一般流程：

1，先创建Spark基础变量，spark，sc

2，加载数据，rdd.textFile，spark.read.csv/json等

3，数据处理，mapPartition, map，filter，reduce等一系列transformation操作

4，数据保存，saveAstextFile，或者其他DataFrame方法

祭出代码

package dev.java;import dev.utils.Utils;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.SparkSession;import org.apache.spark.sql.types.StructType;import scala.Tuple2;import java.util.List;public class Spark1 { private static final String fileData = 'seed'; private static final String fileSave = 'result'; private static SparkSession spark = SparkSession.builder().appName('Java-Spark').master('local[*]').config('spark.default.parallelism', 100).config('spark.sql.shuffle.partitions', 100).config('spark.driver.maxResultSize', '3g').getOrCreate(); private static JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext()); public static void main(String[] args) { Utils.delete(fileSave); // t1(); } private static void t1() { JavaRDD<Row> rdd = sc.textFile(fileData).map(v -> { String[] parts = v.split('t'); return RowFactory.create(parts[0], Long.parseLong(parts[1]));}).filter(v -> v.getLong(1) >= 10000).sortBy(v -> v.getLong(1), false, 100).coalesce(2); Dataset<Row> df = spark.createDataFrame(rdd, StructType.fromDDL('title string, qty long')); df.write().csv(fileSave); spark.stop(); }}

以上就是JAVA操作spark创建DataFrame的方法的详细内容，更多关于JAVA Spark 创建DataFrame的资料请关注好吧啦网其它相关文章！

Java

上一条：Java HashMap实现原理分析（一）下一条：Java NIO异步文件通道原理及用法解析

相关文章：

1. SpringBoot获取Request和Response方法代码解析2. 起步——PHP安装部署（基于linux和windows平台）3. PHP安全-过滤输入4. idea打开多个窗口的操作方法5. 执行Python程序时模块报错问题6. 浅谈JAVA设计模式之代理模式7. 《CSS3实战》笔记--渐变设计（三)8. 使用JSP实现简单的用户登录注册页面示例代码解析9. Java JTable 实现日历的示例10. asp(vbscript)中自定义函数的默认参数实现代码

排行榜

					
					SpringBoot获取Request和Response方法代码解析
起步——PHP安装部署（基于linux和windows平台）
PHP安全-过滤输入
idea打开多个窗口的操作方法
JSP之EL表达式基础详解
使用JSP实现简单的用户登录注册页面示例代码解析
《CSS3实战》笔记--渐变设计（三)
asp(vbscript)中自定义函数的默认参数实现代码
IntelliJ IDEA设置条件断点的方法步骤
ASP点滴：ASP页面内VBScript和JScript的交互
初学Java注意什么
				

热门标签