3w + 星标项目大佬创业:树莓派即可运行大模型

35小吃技术网 推荐阅读 2023年09月25日23时12分46秒 175 0

高级开发人员终于忍无可忍,开始自己创业。

,今年3月份,我开源了llama.cpp项目,已经破了3万颗星,而且只有8.8k。

这个项目允许开发者在没有GPU的情况下运行Meta的LLaMA模型,即使是在 Pi上运行大型模型网也很容易~

△ 在 M2 Max 上以 40 tok/s 的速度运行 7B LLaMA

它甚至吸引了 Zha 的注意:Meta 也在运行 llama.cpp。

或许是因为反响很大,这位大佬决定拿出背后的核心纯C语言框架ggml来创业:几个月前本来只是一个副业项目。

在正式宣布之前,该公司已获得前 Y 合伙人 Gross 的种子前投资。

消息一出,不少开发商前来祝贺。

其中有一些坚定的支持者:ggml 正在将大型模型引入边缘设备。

没过多久,就有人建议苹果收购它。 (狗头)

llama.cpp 作者 创业

ggml是一个纯C语言编写的张量库,可以帮助开发者在消费级硬件上运行大型模型,星数达到4.4k。

由于惊人的加速效果,立即获得了众多开发者的支持。

3w + 星标项目大佬创业:树莓派即可运行大模型-第1张图片

对了,ggml中的gg恰好是他名字的首字母。

老大哥自己的两个star数上万的项目llama.cpp和.cpp都使用了它。

后者是为自动语音识别模型开发的加速解决方案,可以在 Mac、Linux、iOS、、 Pi 和 Web 上运行。

△ 在树莓派上使用.cpp检测短语音命令

3w + 星标项目大佬创业:树莓派即可运行大模型-第2张图片

很多初创公司,比如主生活搜索引擎,都采用了这种解决方案。

终端上还同时运行着两个项目。

△ 在单个M1Pro上同时运行4个13B LLaMA+ Sma网ll实例

据我个人介绍,ggml张量库有以下特点:

支持16位浮点数; 支持整数量化(包括4位、5位、8位); 自动微分; 内置优化算法(如ADAM、L-BFGS); 针对Apple芯片设置特定优化; 在 x86 架构上使用 AVX / AVX2 ; 通过 WASM SIMD 进行 Web 支持; 无第三方依赖; 运行时零内存分配; 支持定向语言输出...

目前这个库及相关项目都是免费开源的,开发过程也完全开放; 当然,也不排除出于某些商业目的开发授权项目。

用 C/C++ 重写神经网络代码

而这背后的开发老板也值得一说。

他的个人网站非常简单,抛出了各种开源项目,但没有太多其他内容。 看得出来他是一个C/C++的粉丝,并且相信Vim。

此前,他用C/C++语言重写了网神经网络推理代码,几乎不依赖其他库,提高了效率。 至于llama.cpp,他也是一夜之间就出来了。

此外,他还有一些有趣的项目。

比如检查键盘是否可以通过麦克风窃听、猜测新闻标题、克隆等。

还有一件事

值得一提的是,背后的两位投资人也有点意思。

他们还专门为创业者提供算力集群,只需在网站上申请即可。 这波更上一层楼了~

参考链接: