龙空技术网

「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

小娜MentarloAI 407

前言:

今天同学们对“c语言笑脸怎么打出来”大体比较关注,兄弟们都想要知道一些“c语言笑脸怎么打出来”的相关文章。那么小编在网上网罗了一些对于“c语言笑脸怎么打出来””的相关知识,希望姐妹们能喜欢,同学们快快来了解一下吧!

他们志在打造AI领域的Github,短短几年间,估值已飙升至20亿美元。

"我们没有任何防护措施,OpenAI也同样没有。"这是一位谷歌内部研究员在最近泄露的文件中表达的观点。他认为,在这场激烈的AI竞争中,尽管谷歌和OpenAI你追我赶,但真正的胜利者可能并非这两者之一,因为有一个第三方力量正在崛起。

这股力量就是"开源社区",这才是谷歌和OpenAI真正的竞争对手。

而在开源社区中最具影响力的,无疑就是Hugging Face。作为AI领域的Github,它提供了众多高质量的开源模型和工具,将研发成果最大化地惠及社区,大大降低了AI的技术门槛,推动了AI的"民主化"进程。

Hugging Face的创始人之一,Clément曾公开表示:"在自然语言处理或机器学习领域,最糟糕的情况就是与整个科学界和开源界竞争。因此,我们不再选择竞争,而是选择为开源社区和科学界提供支持。"

Hugging Face成立于2016年,短短几年内连续获得5轮融资,目前估值已经达到了20亿美元。在Github上,它的星标数量已经超过了9.8万,位列热门资源库之列。

那么,这家公司到底做什么的?它是如何逆袭成为开源界的"顶流"的?它的发展模式又是怎样的呢?

01

NLP 开启逆袭之路

Hugging Face是一家以自然语言处理(NLP)为核心的AI初创公司。

这个公司由曾经创办过VideoNot.es、Mention,以及被Google收购的Moodstocks的法国连续创业者Clément Delangue和Thomas Wolf、Julien Chaumond共同创立。成立于2016年的Hugging Face,现在的总部位于美国纽约。

其中,创始人Clément Delangue和Thomas Wolf都是自然语言处理领域的专家,他们在推动Hugging Face发展的过程中,被认为是当代NLP领域的先驱。

他们创立Hugging Face的初衷,是想为年轻人创建一个"娱乐型"的"开放领域聊天机器人",就像科幻电影《她》中的AI一样,可以和人聊各种话题,如天气、朋友、爱情和体育比赛等。人们可以在闲暇时和它聊天,向它提问,甚至让它生成一些有趣的图片。

这也就解释了Hugging Face这个名字的由来,它源于一个张开双手的笑脸emoji。

在 2017 年 3 月 9 日,Hugging Face App 在 iOS App Store 正式发布,立即引起了广泛的关注,并成功地获得了来自 SV Angel、NBA 球星 Kevin Durant 等投资者的 120 万美元的天使投资。

为了增强这个聊天机器人的自然语言处理(NLP)技能,Hugging Face 创建了一个库,其中包含了各种机器学习模型和各类数据库,这些资源用于训练机器人进行情感分析、生成连贯回应、理解不同的对话主题等。

此外,Hugging Face 团队还在 GitHub 上开源了库的一部分,希望能够通过用户的共创获得开发的灵感。

然而,到 2018 年,Hugging Face 的发展依然平淡无奇,于是他们决定开始免费在线分享应用程序的底层代码。这一行为立即引起了谷歌、微软等科技巨头的研究人员的积极响应,他们开始利用这些代码开发 AI 应用程序,这也使得 Hugging Face 的标志——笑脸 emoji 为大批 AI 开发者所认知。

就在同年,谷歌发布了基于双向 Transformer 的大规模预训练语言模型 BERT,引发了 AI 模型的"内卷时代"。

在这样的背景下,Hugging Face 开始提供 AI 模型服务,随后进入了自己的"黄金时代"。

他们首先开源了 PyTorch-BERT,接着整合了他们之前在 NLP 领域贡献的预训练模型,发布了 Transformers 库。

Transformers 库提供了数千种预训练模型,支持 100 多种语言的文本分类、信息提取、问答、摘要、翻译、文本生成等。开发者可以借助 Transformers 库轻松地使用 BERT、GPT、XLNet、T5、DistilBERT 等大型 NLP 模型来完成各种 AI 任务,大大节省了时间和计算资源。

总的来说,Transformers 库为企业提供了即插即用的模型,无需进行二次开发。因此,许多企业开始使用 Transformers 库,将其模型应用到产品开发和工作流程中。

得益于这些,Transformers 库迅速走红,成为了 GitHub 上增长最快的 AI 项目。

Hugging Face 在 Github 上的 Star 曲线,图片来自于 Lux Capital

Hugging Face 的联合创始人 Clément Delangue 对此也感叹道,“我们发布产品的时候并没有过多考虑,社区的爆炸性增长让我们感到惊讶。”

在面对众多的开发者时,Hugging Face 自然而然地建立了自己的社区,即 Hugging Face Hub;同时,他们调整了产品战略,不再只专注于自然语言处理,而是开始探索机器学习的各个领域,并试图找到新的应用场景,从而构建一套全面的开源产品生态。

到 2023 年 4 月,Hugging Face 已经共享了 166,894 个训练模型和 26,900 个数据集,覆盖了包括 NLP、语音、生物学、时间序列、计算机视觉和强化学习等领域,建立了完整的 AI 开发生态。

这大大降低了进行相关研究和应用的门槛,使 Hugging Face 成为了 AI 社区中最有影响力的技术提供商。

目前,这些模型已经为数以万计的企业提供了服务,帮助科研工作者和相关人员更好地构建模型、更好地参与到产品和工作流程中,其中包括了 Meta、亚马逊、微软、谷歌等知名 AI 团队。

在资本市场,Hugging Face 也同样受到了高度关注。

在 2022 年 5 月,该团队完成了由 Lux Capital 领导、红杉资本参与的 1 亿美元 C 轮融资,估值飙升至 20 亿美元。

面对资本的追捧,Hugging Face 的创始人保持了冷静,他们拒绝了一些“具有重要意义的收购邀约”,并坚决不会像 GitHub 那样出售自己的业务。关于 Hugging Face 的未来,创始人有一些有趣的构想:“我们希望成为第一家以表情符号为股票代码的上市公司,而不是传统的三个字母。”

02

AI 大模型的 Github

Hugging Face,这个因开源而广受关注的企业,特别重视社区建设,他们创立的 Hugging Face Hub 现已成为 AI 开发者的重要阵地。

Hugging Face Hub 是一个供大家探索、实验、合作和发展机器学习技术的集中平台。在这里,任何人都可以分享和探索模型、数据集等资源,方便大家合作共创,共同构建机器学习模型。Hugging Face Hub因此被誉为“机器学习的家园”。

它是 Hugging Face 坚持“开源”精神的产物,同时也是其核心价值。就像官网上的宣言一样:AI 社区,共创未来。

Hugging Face 的创始人曾公开表示,“Hugging Face 的目标是,通过提供工具和开发者社区,让更多的人能使用自然语言处理工具,实现他们的创新目标,使得自然语言处理技术更为便捷和易用。”

他还补充说,“没有任何一家公司,包括科技巨头,能够独立‘解决 AI 问题’,而实现这一目标的唯一途径,就是以社区为中心,共享知识和资源。”

因此,公司致力于在 Hugging Face Hub 上建立最大的模型、数据集、演示和指标的开源集合,使每个人都能利用机器学习进行探索、实验、合作和技术构建,进而实现 AI 的“民主化”目标。

目前,Hugging Face Hub 提供超过 120,000 个模型(Models)、20,000 个数据集(Datasets)和 50,000 个演示应用程序(Spaces),而所有这些都是开源、公开、免费的。

Hugging Face Hub 对所有机器学习模型开放,并得到了 Transformers、Flair、Asteroid、ESPnet、Pyannote 等自然语言处理库的支持,其中,最核心的自然语言处理库就是 Transformers 库。

Transformers 库支持 PyTorch、TensorFlow 和 JAX 这三个框架间的互操作性,保证了在模型生命周期的每个阶段都能灵活使用不同的框架。通过 Inference API(推理 API),用户可以直接使用 Hugging Face 开发的模型与数据集,进行推理、迁移学习。这使得 Transformers 框架在性能和易用性上达到了业界领先水平,深刻地改变了深度学习在 NLP 领域的发展模式。

此外,该平台还提供了诸如模型版本控制、集成测试、共享和协作等实用工具,旨在帮助开发者更加高效地管理和共享模型及数据集。

因此,在 Hugging Face Hub 上,任何开发者或工程团队都可以借助数千个模型的推理 API 接口,快速下载并训练最先进的预训练模型,完成各种模式的常见任务,包括自然语言处理、计算机视觉、音频、多模态等,在数分钟之内即可构建出自己的机器学习驱动的应用程序,省却了大量的时间和资源去从头开始训练模型。

基于此,他们还可以在自己的账号下创建专属仓库,用于存储和分享已训练完成的模型、数据集和脚本,同时与强大的社区进行分享交流,轻松完成机器学习的工作流程。

简而言之,Hugging Face Hub 提供了一个平台给研究者,让他们展示并分享自己的模型,测试他人的模型,从而深入研究这些模型的内部结构,共同推动机器学习的发展。之前,AI 对前端开发者来说显得遥不可及,因为只有极少数的代码生成的 AI 系统向公众免费开放。

因此,Hugging Face 决定在社区中提供开源模型和 API,改变这种现状,主动承担起 AI 科研走向应用的这个过程中的繁复细小工作,使得所有 AI 从业者都能便利地使用这些研究模型和资源。用 Hugging Face 自己的话来说,他们所做的就是架起 AI 科研和应用之间的桥梁。

Hugging Face 还致力于加强 Hub 的安全性,以确保用户的代码、模型和数据安全,让用户可以安心使用。

例如,他们在模型库中添加了模型卡片,以告知用户每个模型的限制和偏见,从而推动模型的负责任使用和开发;他们还在数据集中设定了访问控制功能,允许组织和个人基于许可和隐私考虑创建私有数据集,并自行处理其他用户的访问请求。

值得一提的是,为了进一步推动自然语言处理技术的“民主化”,Hugging Face Hub 上还开设了自然语言处理课程——Hugging Face course。

该课程将使用 Hugging Face 生态系统中的数据库(包括 Hugging Face Transformers、Hugging Face Datasets、Hugging Face Tokenizers 和 Hugging Face Accelerate),来教授有关自然语言处理 (NLP) 的知识。这个课程完全免费,甚至没有广告。

总的来说,Hugging Face Hub 与机器学习领域的 GitHub 非常相似。它是一个由社区开发者驱动的平台,提供丰富的资源,让开发人员可以在机器学习模型、数据集和机器学习应用程序方面进行不断的探索、创新和协作,通过分享知识和资源加速并推进 AI 的发展。

03

「开源」带动「商业」

如何从提供“开放社区”和“开源”资源的公司转变为盈利公司,这是一个值得探讨的问题。

首先,“开源”决策被证明是正确的。通过开源项目Transformers,Hugging Face已经积累了巨大的影响力,建立了一个大型开发者社区Hugging Face Hub,赢得了客户和投资者的信赖,这使得它的商业转型顺利进行。

红杉资本合伙人Pat Grady的看法是,“他们优先考虑应用而非变现,我认为这是正确的决定。他们看到了Transformer模型在NLP之外的应用,看到了成为类似GitHub的机会,这将不仅适用于NLP,也将扩展到机器学习的所有领域。”

回顾过去十年,很多初创公司的成功之路都证明了开源模式的商业可行性。例如MongoDB、Elastic、Confluent等公司都是快速增长的开源公司,它们实现了盈利并在市场中稳定生存。

Hugging Face的联合创始人Clément坚信,“创业公司可以通过某种方式赋能开放的社区,这种方式产生的价值,远超过通过建立专有工具产生的价值。”

他公开表示,“考虑到开源机器学习的价值和其主流地位,其使用量就等同于未来的收入。机器学习将成为技术开发的默认方式,Hugging Face将成为这方面的首选平台,创造出数十亿美元的收入。”

因此,Hugging Face选择了“以开源推动商业”这一商业发展路线,并在2021年开始提供付费功能。

现在,Hugging Face的盈利主要有三个途径:

付费会员制度:通过提供更优质的服务和社区体验来获取收入。数据托管:根据不同的参数需求提供按小时收费的托管服务。AI解决方案服务:这是目前的主推产品,为客户提供定制的NLP、视觉等解决方案,收取技术服务费用。

从2020年开始,Hugging Face开始为企业定制自然语言模型,并推出了AutoTrain、Inference API & Infinity、Private Hub、Expert Support等面向不同开发者类型的个性化产品。

目前,已有1000多家公司成为Hugging Face的付费客户,包括英特尔、高通、辉瑞、彭博社和eBay等大型企业。

2021年,Hugging Face实现了1000万美元的收入,证明其“开源推动商业”战略的成功。

正如Hugging Face的CEO,Clément所说,“公司不需要从创造的价值中获取100%的利润,只需要将其中1%的价值变现,即使只有1%,也足以使你成为一家高市值的公司。”

总的来说,Hugging Face依靠开源社区积累的影响力,然后逐步扩展到SaaS产品和企业服务。这种渐进式的转型使得Hugging Face在开源和商业化之间找到了良好的平衡,这也是它能够成功的关键。这种发展策略使得Hugging Face在AI领域树立了自己的独特地位,并为其他AI初创公司提供了示例。

然而,开源生态系统也有其弱点,因为商业化的发展可能会破坏自然形成的社区环境。为了解决这个问题,Hugging Face采取了增强技术控制,维护自己的开源生态,并深入科研领域的方法。

“机器学习技术仍在早期阶段,开源社区的潜力是巨大的。在未来5到10年,我们肯定会看到更多的开源机器学习公司崭露头角。”

标签: #c语言笑脸怎么打出来