HarmonyHu's Notes

Qwen3VL解析

October 7, 2025 10 分钟阅读

Vision部分源码：qwen3_vl Vision部分 Qwen3VL图片patch大小为16，比如图片800x640，对应thw为[1, 50, 40]。一些重要参数如下： hidden_size = 1152 num_heads = 16

Audio部分 1. 音频前处理第一步：读取音频数据本文以Qwen2.5-Omni-7B为例解析该模型。源码：modeling_qwen2_5_omni.py Audio部分 1. 音频前处理第一步：读取音频数据第一步：比如20s的视频，原始采样率为44.100kHz。audio会用16kHz采样率重采样，得到335459个浮点数值，范围是[-1.0, 1.0]。为什么不是320000个浮点数值？这是因为原始采样率与16000存在四舍五入补帧情况，导致多采样部分。

音频基本概念

January 17, 2025 1 分钟阅读

音频比特率：比如128kbps，表示每秒有128kbit的音频数据，也就是16KB/s。标准的MP3用128kbs；高品质MP3用192kbps。频道：也称声道(Channel)，表示声音信号流数量。1为单声道；2为立体声道。量化位深：Bit Depth，表示每个采用点振幅的二进制数据。8bit用于早期游戏机；16bit主流音频；24bit专业录音。分贝：decibel (dB)，音频领域表示动态范围，$ DR ≈ 6.02 × n(位深) + 1.76 (单位：dB)$。其中位深16bit对应98dB；24bit对应146dB。采样频率：也称采样率(Sampling Rate)，每秒对音频信号的采样次数。CD质量的采用率一般是44.1kHz 未压缩音频数据量大小计算：$ 文件大小(bytes) ≈ 采样率(Hz) × 量化位深 (bits/sample) × 声道数 × 时长 (s) ÷ 8 (bits → bytes) $ 比如44.1kHz、16 bit、2声道、1分钟数据量： $ ≈ 44 100 × 16 × 2 × 60 ÷ 8 ≈ 1 058 400 bytes ≈ 1.01 MB $ 比特率 = 采用率 × 位深 × Channel

Qwen2.5VL解析

December 17, 2024 17 分钟阅读

Vision部分本文以Qwen2.5VL-7B为例，分Vision部分和LLM部分，来解析该模型。源码：modeling_qwen2_5_vl.py Vision部分在config.json中vision部分的配置如下： "vision_config": { "depth": 32, "embed_dim": 1280, "mlp_ratio": 4, "num_heads": 16, "in_chans": 3, "hidden_size": 1536, "patch_size": 14, "spatial_merge_size": 2, "spatial_patch_size": 14, "temporal_patch_size": 2 }

LLM的采样策略

June 17, 2024 2 分钟阅读

贪心解码 LLM的decode阶段会输出vocab_size个数值，本文用logits表示。每个位置对应词典每个token。选择哪个token，有不同的策略。参考链接：logits_process.py 贪心解码 Greedy Decoding，也就是直接选择数值最大的那个位置的token。示例代码如下： # logits is [vocab_size] logit, token = torch.topk(logits, 1)

Safetensors文件格式

May 17, 2024 2 分钟阅读

基本介绍基本介绍本文出处：Safetensors 一种tensors的存储格式，读写速度快，常用于huggingface上权重的存储安装方法：pip3 install safetensors

LoRA学习

April 17, 2024 10 分钟阅读

LoRA概念 LoRA概念论文：[2106.09685] LoRA: Low-Rank Adaptation of Large Language Models LoRA: Low Rank Adaptation，低秩适应，一种高效的微调技术，在原有LLM基础上额外增加少量可训练的参数，而非对整个LLM进行训练。训练速度更快，适合资源有限场景。 lora_rank: 简写成r，低秩，一般很小，r <= 32。将原有矩阵参数，转换成$W = W_0 + \Delta W$，其中$\Delta W=A \times B$。举例说明权重[2048, 1024] + [2048, 32] x [32, 1024]，其中32就是lora_rank，W的参数量2M，$\Delta W$的参数量96K。也就是LoRA只用训练96K即可。 lora_alpha: 是LoRA的缩放系数，起到调整更新 $\Delta W$ 幅度的作用，这时$\Delta{W} = \frac{lora_alpha}{r}A\times B$ 前向推导公式：$ h = W_0x + \Delta Wx = W_0x + \frac{lora_alpha}{r}BAx $

CUDA与Triton

March 17, 2024 6 分钟阅读

并行计算术语并行计算术语名词全称注解 SI Single Instruction 指单一指令，一个时钟执行单一指令。即便多个处理单元，也执行一样的指令。 SD Single Data 指单一数据，一个时钟一条数据。即便多个处理单元，也使用相同的数据。 MI Multiple Instruction 指多指令，不同处理单元处理不同的指令。 MD Multiple Data 指多数据，不同的处理单元处理不同的数据。 SISD Single Instruction, Single Data 串行计算，传统单核芯片属于该类 SIMD Single Instruction, Multiple Data 单指令多数据流，典型的可以支持向量计算，对不同的数据使用相同的指令。一般现代CPU都会支持SIMD指令。 MISD Multiple Instruction, Single Data 多指令单数据流，几乎不存在这样的架构 MIMD Multiple Instruction, Multiple Data 多指令多数据流。多核处理器都是属于这个范畴 SIMT Single Instruction Multiple Threads 单指令多线程，每个线程处理相同的指令和不同的数据。可以认为是SIMD的升级版，个人理解它们的区别在于：SIMD的数据必须是向量形式的数据，SIMT的数据则没有形式的要求。所以SIMT可以更加灵活。现代GPU一般都是SIMT。 SPMD Simple Program, Multiple Data 单程序多数据，一种编程概念，用于数据并行的应用。一般MIMD或者SIMT，可以支持SPMD

OpenAI CLIP

August 17, 2023 1 分钟阅读

概述概述源码：github, huggingface 介绍：https://openai.com/index/clip CLIP全称Contrastive Language-Image Pretraining，基于语言图像对比预训练，是目前最为优秀的zero-shot模型，也是后续一系列图文模型的基石，甚至直接拿它做Backbone。它最大的优势在于，可以直接用文本+图像做训练，这部分数据量在网上是非常庞大的。而传统的标注类数据集成本非常高昂，数据量也不是一个量级。 zero-shot：零样本学习，无需专门对样本分类，使分类功能可以泛化。原理如下图(图来自官方)所示：训练时，文本数据经过Text Encoder 生成[T1, T2, ..., TN]向量；图片数据经过Image Encoder转成[I1, I2, ..., IN]向量，然后两个向量求余弦距离，得到所有文件与图片的相关性推理时，同样的方式使用Text Encode和Image Encoder得到两个向量，求余弦举例通常图像用resnet50做backbone，文本用vit做backbone

Python常用工具

July 17, 2023 少于 1 分钟阅读

ipython venv ipython 可以执行python交互命令安装方式： pip3 install ipython venv 创建虚拟环境，可以做python环境隔离 cd myfold # 创建虚拟环境，不包含pip；也可以去掉without-pip，包含pip python3 -m venv --without-pip myenv # 进入虚拟python环境 source myenv/bin/activate # 执行python相关操作 ... # 退出环境 deactivate

编辑ONNX模型

November 17, 2021 1 分钟阅读

概述概述 onnx模型编辑方法有2种： onnx-graphsurgeon : 手工编辑onnx模型 onnx-modifier : 图形化编辑onnx模型虽然onnx-modifier有图形界面编辑onnx，但是实际用起来问题特别多。onnx-graphsurgeon用起来更加强大，简洁。安装方法如下： pip install onnx_graphsurgeon --index-url https://pypi.ngc.nvidia.com 也可以源码编译安装： make build pip install onnx_graphsurgeon/dist/onnx_graphsurgeon-*-py2.py3-none-any.whl

FasterRCNN

October 17, 2021 1 分钟阅读

概述概述源码： Torch Faster RCNN 论文地址：Faster R-CNN

HarmonyHu

个人学习笔记