配置 Spark
概述
您可以在批处理和流式传输模式下配置读取和写入操作。有关可用配置选项的更多信息,请参阅以下页面
指定配置
使用SparkConf
您可以使用以下任何一种方法使用 SparkConf 指定配置选项
在您的应用程序中,有关更多信息,请参阅Java SparkConf 文档.
您应用中的
SparkConf构造函数。了解更多,请参阅Python SparkConf 文档。
您应用中的
SparkConf构造函数。了解更多,请参阅Scala SparkConf 文档。
运行时的
--conf标志。了解更多,请参阅 Spark 文档中的动态加载 Spark 属性。Spark 配置文件
$SPARK_HOME/conf/spark-default.conf。
MongoDB Spark 连接器将使用 SparkConf 中的设置作为默认值。
使用选项映射
在 Spark API 中,DataFrameReader、DataFrameWriter、DataStreamReader 和 DataStreamWriter 类各自包含一个 option() 方法。您可以使用此方法指定底层读取或写入操作的操作选项。
注意
以这种方式指定的选项将覆盖 SparkConf 中相应的任何设置。
简写语法
选项映射支持简写语法。在指定选项键字符串时,您可以省略前缀。
示例
以下语法是等效的
dfw.option("spark.mongodb.write.collection", "myCollection").save()dfw.option("spark.mongodb.collection", "myCollection").save()dfw.option("collection", "myCollection").save()
要了解有关 option() 方法的更多信息,请参阅以下 Spark 文档页面
使用系统属性
Spark 连接器在 SparkConf 可用之前读取一些配置设置。您必须使用 JVM 系统属性来指定这些设置。
有关Java系统属性的更多信息,请参阅Java文档。
提示
配置异常
如果Spark连接器抛出ConfigException,请确认您的SparkConf或选项映射使用正确的语法,并且只包含有效的配置选项。