Google DeepMind提出Gecko:实现强大的检索性能谷歌团队新提出的Gecko是一种紧凑、通用的文本嵌入模型。Gecko利用一个关键理念实现了强大的检索性能:将大型语言模型(LLM)中的知识提炼到检索器中。该模型的提炼过程分为两步,首先使用LLM生成多样化的合成配对数据。接下来,为每个查询检索一组候选段落,并使用相同的LLM对正向段落和反向段落进行重新标注,从而进一步提高数据质量。
Gecko的紧凑性证明了这种检索方法的有效性。在海量文本嵌入基准测试(MTEB)中,嵌入维度为256的Gecko优于嵌入维度为768的所有现有项目。具有768个嵌入维度的Gecko平均得分达到66.31,与7倍更大的模型和5倍更高维度的嵌入相抗衡。