配置 Spark
概述
您可以在批处理和流式传输模式下配置读取和写入操作。有关可用配置选项的更多信息,请参阅以下页面
指定配置
使用SparkConf
您可以使用以下任何一种方法使用 SparkConf
指定配置选项
在您的应用程序中,有关更多信息,请参阅Java SparkConf 文档.
您应用中的
SparkConf
构造函数。了解更多,请参阅Python SparkConf 文档。
您应用中的
SparkConf
构造函数。了解更多,请参阅Scala SparkConf 文档。
运行时的
--conf
标志。了解更多,请参阅 Spark 文档中的动态加载 Spark 属性。Spark 配置文件
$SPARK_HOME/conf/spark-default.conf
。
MongoDB Spark 连接器将使用 SparkConf
中的设置作为默认值。
使用选项映射
在 Spark API 中,DataFrameReader
、DataFrameWriter
、DataStreamReader
和 DataStreamWriter
类各自包含一个 option()
方法。您可以使用此方法指定底层读取或写入操作的操作选项。
注意
以这种方式指定的选项将覆盖 SparkConf
中相应的任何设置。
简写语法
选项映射支持简写语法。在指定选项键字符串时,您可以省略前缀。
示例
以下语法是等效的
dfw.option("spark.mongodb.write.collection", "myCollection").save()
dfw.option("spark.mongodb.collection", "myCollection").save()
dfw.option("collection", "myCollection").save()
要了解有关 option()
方法的更多信息,请参阅以下 Spark 文档页面
使用系统属性
Spark 连接器在 SparkConf
可用之前读取一些配置设置。您必须使用 JVM 系统属性来指定这些设置。
有关Java系统属性的更多信息,请参阅Java文档。
提示
配置异常
如果Spark连接器抛出ConfigException
,请确认您的SparkConf
或选项映射使用正确的语法,并且只包含有效的配置选项。