《零基础入门Spark》学习笔记 Day 13

张开发

• 2026/6/7 3:58:58 • 15 分钟阅读

分享文章

Structured Streaming数据加载SparkSession的readStream API 来创建DataFramevar df: DataFrame spark.readStream .format(socket) .option(host,host) .option(port,port) .load()format指定流处理的数据源头类型option与数据源头有关的若干选项load将数据流加载进Spark流计算有3个重要的基础概念比如flink也是如此Source流计算的数据源头Processing负责对数据流进行转换、过滤、聚合等操作Sink指的是数据流向的目的地数据处理/** 使用DataFrame API完成Word Count计算 */ // 首先把接收到的字符串以空格为分隔符做拆分得到单词数组words df df.withColumn(words, split($value, )) // 把数组words展平为单词word .withColumn(word, explode($words)) // 以单词word为Key做分组 .groupBy(word) // 分组计数 .count()数据输出/** 将Word Count结果写入到终端Console */ df.writeStream // 指定Sink为终端Console .format(console) // 指定输出选项 .option(truncate, false) // 指定输出模式 .outputMode(complete) //.outputMode(update) // 启动流处理应用 .start() // 等待中断指令 .awaitTermination()一般来说Structured Streaming支持3种Sink输出模式Complete mode输出到目前为止处理过的全部内容Append mode仅输出最近一次作业的计算结果Update mode仅输出内容有根据输入的计算结果

《零基础入门Spark》学习笔记 Day 13

最新文章

PAT乙级刷题避坑指南：从‘我要通过！’到‘狼人杀’，那些题目里没说清的隐藏考点

从芯片设计到客户手里：揭秘AE、FAE、PE、VE如何接力完成一颗IC的旅程

用PaddleOCR v3搞定80种语言图片文字提取：从安装到实战避坑全记录

保姆级避坑指南：在ROS Noetic上搞定aruco_ros编译与单目相机定位（解决CV_FILLED报错）

碧蓝航线Alas脚本完整指南：自动化游戏终极解决方案

FUXA工业级可视化监控系统：5天从零构建专业SCADA平台的完整指南

推荐文章

相关文章

分享文章

更多文章

ESPS USB MSC 调试全过程记录栽

联发科MTK专用刷机提取工具｜免引导文件直提原厂固件包｜支持安卓4-11全平台救砖与系统刷写

Ollama官方唯一指定学习教程，让你轻松玩转大模型！

从心所欲不逾矩：一种自感澄明的儒家工夫现象学——兼论“自我即自感”与儒家心性论的对话

Maomi.In | .NET 全能多语言解决方案鞍

jquery-ujs 常见问题排查：10个开发者最常遇到的错误及解决方法

2026届学术党必备的六大降AI率工具实测分析

书匠策AI：课程论文的“魔法笔杆”，让学术写作如行云流水！

【2026年阿里巴巴集团暑期实习- 4月8日-工程岗-第二题- 网格路径最大和】（题目+思路+JavaC++Python解析+在线测试)

ArkUI 的核心语法，一篇文章讲清楚

Contextual Retrieval 技术让检索准确率提升 67%！AI 开发者必看，解决 RAG 核心痛点！

终极加密货币数据解决方案：Cryptofeed完全指南