个人学习笔记
HarmonyHu's Notes
日日行,不怕千万里
AI Compiler Engineer · 个人学习笔记
最新文章
-
2026-02-21
Qwen3.5解析
RMSNorm源码:qwen3.5Qwen3.5包含了VIT进行图像处理,所以可以与Qwen3-VL做对比: RMSNorm稍有区别 LinerAttention与FullAttention混合,比例是3:1 LinearAtten...
-
2025-10-07
Qwen3VL解析
Vision部分源码:qwen3_vlVision部分Qwen3VL图片patch大小为16,比如图片800x640,对应thw为[1, 50, 40]。一些重要参数如下:hidden_size = 1152num_heads = 16
-
2025-06-17
FlashAttention学习
背景介绍学习论文:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness背景介绍Attention运算公式:$ Attention(Q,K,V) = softmax(\fra...
-
2025-04-17
Qwen2.5Omni解析
Audio部分 1. 音频前处理 第一步:读取音频数据 本文以Qwen2.5-Omni-7B为例解析该模型。源码:modeling_qwen2_5_omni.pyAudio部分1....
-
2025-01-17
音频基本概念
音频 比特率:比如128kbps,表示每秒有128kbit的音频数据,也就是16KB/s。标准的MP3用128kbs;高品质MP3用192kbps。 频道:也称声道(Channel),表示声音信号流数量。1为单声道;2为立体声道。 量化位深:Bit Dep...
-
2024-12-17
Qwen2.5VL解析
Vision部分本文以Qwen2.5VL-7B为例,分Vision部分和LLM部分,来解析该模型。源码:modeling_qwen2_5_vl.pyVision部分在config.json中vision部分的配置如下:"vision_config": { "dep...
-
2024-06-17
LLM的采样策略
贪心解码LLM的decode阶段会输出vocab_size个数值,本文用logits表示。每个位置对应词典每个token。选择哪个token,有不同的策略。参考链接:logits_process.py贪心解码Greedy Decoding,也就是直接选择数值最大的那个位...
-
2024-05-17
Safetensors文件格式
基本介绍基本介绍 本文出处:Safetensors 一种tensors的存储格式,读写速度快,常用于huggingface上权重的存储 安装方法:pip3 install safetensors
-
2024-04-17
LoRA学习
LoRA概念LoRA概念 论文:[2106.09685] LoRA: Low-Rank Adaptation of Large Language Models LoRA: Low Rank Adaptation,低秩适应,一种高效的微调技术,在原...
-
2024-03-17
CUDA与Triton
并行计算术语并行计算术语 名词 全称 注解 SI Single Instruction 指单一指令,一个时钟执行单一指令。即便多个处理单元,也执行一样的指令。 ...