quick-spark-process

学习spark的相关示例

word-count

最简单也是最经典的例子后面搭了spark集群并使用了hdfs来存储文件，有几点需要注意

文件的调用方式

context.textFile("D:\\data\\spark\\blsmy.txt");  -- 用于idea测试
context.textFile("file:///mnt/data/blsmy.txt"); -- 用于集群运行(前提，运行的各节点都需要有此文件)
context.textFile("hdfs://spark-master:9000/wordcount/blsmy.txt"); -- 使用hdfs调用文件

日志输出的位置

在页面中，输出的日志有sterr和stdout两种，在stdout可以查看程序中输出的内容。如果你在程序中使用了println(....)输出语句，这些信息会在stdout文件里面显示；其余的Spark运行日志会在stderr文件里面显示。也可以直接进行日志文件进行查看，如：

/spark/software/spark/work/app-20180428142302-0003/0/stdout
/spark/software/spark/work/app-20180428142302-0003/0/stderr

启动的方式

bin/spark-submit \ 
    --master spark://spark-master:7077 \
    --driver-memory 1g \
    --executor-cores 1 \
    --class com.spark.WordCount \
    simple/word-count-1.0-SNAPSHOT.jar

spark-pi

也是一个比较经典的栗子

spark-sql

使用sparksql做的简单操作

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
people.parquet		people.parquet
sb-word-count		sb-word-count
spark-pi		spark-pi
spark-sql		spark-sql
word-count		word-count
.gitignore		.gitignore
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

people.parquet

people.parquet

sb-word-count

sb-word-count

spark-pi

spark-pi

spark-sql

spark-sql

word-count

word-count

.gitignore

.gitignore

README.md

README.md

pom.xml

pom.xml

Repository files navigation

quick-spark-process

word-count

文件的调用方式

日志输出的位置

启动的方式

spark-pi

spark-sql

About

Releases

Packages

Contributors 2

Languages

vector4wang/quick-spark-process

Folders and files

Latest commit

History

Repository files navigation

quick-spark-process

word-count

文件的调用方式

日志输出的位置

启动的方式

spark-pi

spark-sql

About

Topics

Resources

Stars

Watchers

Forks

Languages