文档菜单
文档首页
/
MongoDB 手册
/ / /

自托管部署上的文本索引属性

本页内容

  • 不区分大小写
  • 不区分变音符号
  • 分词分隔符
  • 索引条目
  • 支持的语言和停用词
  • 稀疏属性
  • 了解更多

本页描述了版本 3 文本索引的行为。

文本索引不区分大小写。文本索引不会区分大写和小写字符,例如eE

文本索引支持按照Unicode 8.0 字符数据库大小写折叠:

  • 常用 C

  • 简单 S

  • 土耳其语特殊 T

  • 有重音符号的字符,例如 éÉ

  • 非拉丁字母的字符,例如西里尔字母中的 Ии

之前的文本索引版本 只对非重音拉丁字符 [A-z] 不区分大小写。之前的文本索引版本将所有其他字符视为不同的。

文本索引对变音符号不敏感。文本索引不会区分带变音符号的字符和它们的非标记对应字符,例如 éêe。更具体地说,文本索引会移除在Unicode 8.0 字符数据库属性列表中分类为变音符号的标记。

之前的文本索引版本将带变音符号的字符视为不同的。

对于标记化,文本索引使用在Unicode 8.0 字符数据库属性列表中分类为 破折号短横线模式语法引号终止标点空白 的分隔符。

例如,在短语 Il a dit qu'il «était le meilleur joueur du monde» 中,引号(«»)和空格是分隔符。

索引的早期版本« 视为术语 «était 的一部分,将 » 视为术语 monde» 的一部分。

文本索引对索引字段中的术语进行标记和词干提取,为索引条目存储。索引使用简单的语言特定的词干提取。对于集合中的每份文档,文本索引在每个索引字段中存储每个唯一词干的一个索引条目。

MongoDB支持多种语言的文本搜索。文本索引使用简单的语言特定的词干提取。文本索引还会删除英语中的语言特定的停用词,如theanaand。有关支持的语言列表,请参阅自托管部署上的文本搜索语言。

要指定文本索引的语言,请参阅自托管部署上指定文本索引的默认语言。

文本索引始终是稀疏的。当您创建文本索引时,MongoDB会忽略sparse选项。

如果现有或新插入的文档缺少文本索引字段(或字段为null或空数组),MongoDB不会为该文档添加文本索引条目。

有关文本索引的限制,请参阅自托管部署上的文本索引版本。

返回

限制条目