文档菜单
文档首页
/
Spark 连接器

配置 Spark

本页内容

  • 概述
  • 指定配置

您可以在批处理和流式传输模式下配置读取和写入操作。有关可用配置选项的更多信息,请参阅以下页面

  • 批处理读取配置选项

  • 批处理写入配置选项

  • 流式读取配置选项

  • 流式写入配置选项

您可以使用以下任何一种方法使用 SparkConf 指定配置选项

  • 在您的应用程序中,有关更多信息,请参阅Java SparkConf 文档.

  • 运行时的 --conf 标志。了解更多,请参阅 Spark 文档中的动态加载 Spark 属性

  • Spark 配置文件 $SPARK_HOME/conf/spark-default.conf

MongoDB Spark 连接器将使用 SparkConf 中的设置作为默认值。

在 Spark API 中,DataFrameReaderDataFrameWriterDataStreamReaderDataStreamWriter 类各自包含一个 option() 方法。您可以使用此方法指定底层读取或写入操作的操作选项。

注意

以这种方式指定的选项将覆盖 SparkConf 中相应的任何设置。

选项映射支持简写语法。在指定选项键字符串时,您可以省略前缀。

示例

以下语法是等效的

  • dfw.option("spark.mongodb.write.collection", "myCollection").save()

  • dfw.option("spark.mongodb.collection", "myCollection").save()

  • dfw.option("collection", "myCollection").save()

要了解有关 option() 方法的更多信息,请参阅以下 Spark 文档页面

Spark 连接器在 SparkConf 可用之前读取一些配置设置。您必须使用 JVM 系统属性来指定这些设置。

有关Java系统属性的更多信息,请参阅Java文档。

提示

配置异常

如果Spark连接器抛出ConfigException,请确认您的SparkConf或选项映射使用正确的语法,并且只包含有效的配置选项。

返回

开始使用Spark连接器

本页内容