梳理cuda算子编译与python调用的流程

发表于2024-06-10|更新于2024-08-16|vLLM源码阅读

|阅读量:

梳理cuda算子编译与python调用的流程

跟踪vllm在generation阶段的代码，发现其page_atttention有V1和V2两个版本。以其V2版本为例。

下图是他在vllm/_custom_ops.py中的定义，调用vllm_ops中的paged_attention_v2。但是这个paged_attention_v2在那里呢。

通过vscode全局搜索paged_attention_v2,发现其是cuda实现的。那么为什么这里在py文件中可以直接调用呢？

参考https://blog.csdn.net/u011590738/article/details/135999385文章。弄明白了其原理。

遂做记录

文章作者: 酷狗

文章链接: http://example.com/2024/06/10/%E6%A2%B3%E7%90%86cuda%E7%AE%97%E5%AD%90%E7%BC%96%E8%AF%91%E4%B8%8Epython%E8%B0%83%E7%94%A8%E7%9A%84%E6%B5%81%E7%A8%8B_%E4%BB%A5vllm%E4%B8%BA%E4%BE%8B/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自欢迎来到酷狗的个人博客！

数据库加载中