服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

大力真的有奇迹

日期: 来源:AINLP收集编辑:多头注意力

在之前那篇颇受欢迎的卖惨小品【今天被OpenAI爆了】里,我讲述了被GPT embedding震撼的故事。但故事的最后,我们并没有采用openai的embedding接口,因为那样确实成本和产品稳定性都不好控制。

我们在一番寻找之后,看到了一个叫Massive Text Embedding Benchmark (MTEB)的大型语义表征benchmark(在Huggingface上有最新的榜单[1])。并且最终选择了榜单上排名第二的instructor-lg[2]模型。

MTEB榜单top10

Instructor-large模型的水平在这个榜单上超过了openai的ada-002,可见开源社区还是很能打的。这个模型基于的是谷歌的T5模型,然后用instruction finetuning的方法训练了一个可以适用多个场景的embedding模型。维度768,模型0.3b,推理速度很快,线上使用负担也比1536的ada-002低很多。这个跟之前我使用的21年SOTA Simcse模型(排在排行榜第30位)比,规模是三倍,在这个benchmark上的得分是61.59 vs 48.87,提升确实很明显。不过我猜Simcse large的得分应该也能超过50。总之instructor是个好模型,推荐大家在需要语义embedding的场景使用。

但今天的主角并不是他,而是排在第14名的模型all-mpnet-base-v2[3]。这个模型是sentence-transformers出品的一个模型,用的backbone是mpnet-base。它的规模和simcse相当,但得分是57.78,提升了很多。如果说前面的Instructor模型,甚至是GPT模型的提升很大程度来源于模型规模扩大,那这个同等规模模型的提升来自于哪里呢?mpnet这个稍显小众的网络可能比bert、roberta是强一些,但这不是主要的。因为有一个名字很类似的模型all-MiniLM-L12-v2[4],以及它的缩小版all-MiniLM-L6-v2[5]的得分都是56.x。这两个模型的维度更小,是384维,而L6模型的层数甚至也只有bert-base的一半。主要的提升点来自于前缀all。model card里是这么说的:

We use the concatenation from multiple datasets to fine-tune our model. The total number of sentence pairs is above 1 billion sentences. We sampled each dataset given a weighted probability which configuration is detailed in the data_config.json file.

十亿句子对训练,没错,是十亿!拿一个小小的6层模型,在大量数据上训练,就可以获得一个比两年前的SOTA好很多的模型。这种暴力美学真的令我叹为观止。看到他们数据集的时候突然感觉自己的格局或者想象力真的太小了。

什么叫对深度学习有信仰,这种玩法大概就是吧。其实OpenAI也是很类似的,因为相信大模型,大数据,所以能搞成。而且就sentence-transformers用的数据来说,都是公开可获取的,能跑得动这个训练的人应该有很多,但真这么跑的却很少。

不止是NLP领域,CV界不也是这样吗,前段时间Meta的SAM也是用史无前例的大数据集训练的。对比一下,之前的预训练模型用的常用数据集COCO才328K张图片,是SAM数据集的3%

SAM效果惊艳

SAM is trained on a massive dataset of 11 million images and 1.1 billion masks, which is the largest segmentation dataset to date. This dataset covers a wide range of objects and categories, such as animals, plants, vehicles, furniture, food, and more. SAM can segment objects that it has never seen before, thanks to its generalization ability and data diversity.

大力真的有奇迹,今天就写这么多,希望对你有启发。

参考资料

[1]

mteb榜单: https://huggingface.co/spaces/mteb/leaderboard

[2]

Instructor-large: https://huggingface.co/hkunlp/instructor-large

[3]

all-mpnet-base-v2: https://huggingface.co/sentence-transformers/all-mpnet-base-v2

[4]

all-MiniLM-L12-v2: https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2

[5]

all-MiniLM-L6-v2: https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2


哇,恭喜你已经看到结尾了。欢迎关注我,及时获取更多优质文章。


进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。




阅读至此了,分享、点赞、在看三选一吧

相关阅读

  • 理解AutoGPT原理

  • 看过上次文章的朋友应该学会抢答了:对,就是提示词。那么具体是怎么做的呢?首先启动时你需要设置三个项目:你的机器人名字、你设定给机器人的角色、你要完成的目标。根据你的设定
  • 元语智能招募大模型方向NLP算法实习生(2名)

  • 杭州元语智能招募大模型方向NLP算法实习生(2名) 元语智能:作为大模型研发和应用公司,致力于通用大模型的行业化和应用化。先后发布了百亿类ChatGPT模型ChatYuan,近十亿参数ChatYu
  • NLP重铸篇之LLM系列(Codex)

  • codex论文标题:Evaluating Large Language Models Trained on Code论文链接:https://arxiv.org/pdf/2107.03374.pdf论文数据地址:https://www.github.com/openai/human-evalGPT
  • 如何看待一季度经济数据及后续趋势︱重阳问答

  • 【欢迎收听音频版】Q:请问重阳投资,如何看待一季度经济数据及后续趋势?A:一季度宏观经济数据出炉,我们的观点可以用总量有惊喜,结构在分化,后续有期待来概括。一季度经济数据最大的
  • 【广发言·特刊】世界读书日专题(下期)

  • 导读:莎士比亚说过:“生活里没有书籍,就好像没有阳光;智慧里没有书籍,就好像鸟儿没有翅膀。”关于读书的意义,见仁见智;但大家普遍认可读书是一个学习输入的过程。一年前,我们开设了
  • 10种经典的螺栓防松设计

  • 机械设备中螺栓连接一旦松懈,会引起螺栓脱落导致重大安全隐患,或螺栓松弛预紧力下降导致螺栓连接疲劳寿命大大缩短。因此在设计中要选用适当的防松措施保证螺栓在实际使用中不
  • 因果推断在有限资源决策中的应用

  • 导读 本文将分享因果推断在有限资源决策中的应用。主要内容包括:1. 什么是因果推断2. 有限资源决策3. 因果推断技术如何助力智能决策4. Future Work & Discussions分享嘉宾|罗

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四
  • 美国对华2000亿关税清单,到底影响有多大?

  • 1 今天A股大跌,上证最大跌幅超过2%。直接导火索是美国证实计划对华2000亿美元产品加征25%关税。 听起来,2000亿美元数目巨大,我们来算笔账。 2000亿美元,按现在人民币汇率

最新文章

  • 理解AutoGPT原理

  • 看过上次文章的朋友应该学会抢答了:对,就是提示词。那么具体是怎么做的呢?首先启动时你需要设置三个项目:你的机器人名字、你设定给机器人的角色、你要完成的目标。根据你的设定
  • 大力真的有奇迹

  • 在之前那篇颇受欢迎的卖惨小品【今天被OpenAI爆了】里,我讲述了被GPT embedding震撼的故事。但故事的最后,我们并没有采用openai的embedding接口,因为那样确实成本和产品稳定性
  • 元语智能招募大模型方向NLP算法实习生(2名)

  • 杭州元语智能招募大模型方向NLP算法实习生(2名) 元语智能:作为大模型研发和应用公司,致力于通用大模型的行业化和应用化。先后发布了百亿类ChatGPT模型ChatYuan,近十亿参数ChatYu
  • NLP重铸篇之LLM系列(Codex)

  • codex论文标题:Evaluating Large Language Models Trained on Code论文链接:https://arxiv.org/pdf/2107.03374.pdf论文数据地址:https://www.github.com/openai/human-evalGPT
  • 【第2923期】选择无聊的技术

  • 前言“快乐来自于推出产品”,喜欢这句。今日前端早读课文章由 @Chun-Fu Chao 翻译分享。前端早读课:与你分享“我”的视界。正文从这开始~~嘿我是 Dan McKinley。这是我在坑里的