基于GPT-2的AI音乐生成：从符号音乐到多轨作曲

梁培定

1. 音乐生成模型训练全流程解析

在人工智能领域，音乐生成一直是个令人着迷的方向。最近我完成了一个使用GPT-2模型生成多轨音乐的项目，整个过程从数据集准备到模型部署，收获了不少实战经验。与常见的音频生成不同，这个项目采用了符号音乐（Symbolic Music）的方法，将MIDI音乐指令转化为类似自然语言的"伪单词"，然后利用NLP领域的Transformer模型进行训练。

1.1 为什么选择符号音乐方法

音乐生成通常有两种主流方法：

原始音频法：直接处理.wav或.mp3格式的音频波形
符号音乐法：使用MIDI或MusicXML等格式存储的音乐指令

我选择后者有几个重要原因：

数据效率：符号表示比原始音频更紧凑，1分钟的MIDI文件可能只有几KB
可解释性：可以直接看到和编辑生成的音乐结构
计算资源：训练所需的GPU显存和算力要求相对较低

提示：对于个人开发者和研究者，符号音乐方法是在有限资源下探索AI音乐生成的理想选择。

2. 数据集准备与处理

2.1 获取和清洗MIDI数据集

我使用了Lakh MIDI数据集(LMD)的Clean子集，包含14,751个MIDI文件。这些文件已经过初步清洗，文件名包含艺术家和曲名信息，这对后续按流派分类很有帮助。

数据集处理的关键步骤：

下载原始MIDI文件
使用Spotify API获取艺术家流派信息
用ChatGPT对流派进行归类和标准化
最终生成包含"GENRE=流派"标记的CSV文件

python复制# Spotify API获取流派示例代码
genres = {}
for i,artist in enumerate(artists):
    try:
        results = sp.search(q=artist, type='artist', limit=1)
        items = results['artists']['items']
        genre_list = items[0]['genres'] if len(items) else items['genres']
        genres[artist] = (genre_list[0]).replace(" ","_")
        if i <5:
            print("预览 {}/5".format(i+1), artist, genre_list[:5])
    except Exception as e:
        genres[artist] = "MISC"
        print("错误: ", artist,"未包含: ", e)

2.2 MIDI文件分块处理

为了训练效果，我将每首曲子分割成8小节的片段。这个长度既能保持音乐结构的完整性，又不会使输入序列过长。

分块处理的注意事项：

保持原始时间签名（本项目仅使用4/4拍）
处理多轨MIDI时需要同步各轨道的音符时间
过滤掉音符数量过少的片段（可能是不完整的音乐）

python复制# MIDI分块处理核心逻辑
for i, midi_path in enumerate(tqdm(midi_paths, desc="处理MIDI")):
    try:
        midi = MidiFile(midi_path)
        ticks_per_cut = MAX_NB_BAR * midi.ticks_per_beat * 4
        nb_cuts = ceil(midi.max_tick / ticks_per_cut)
        
        for j, track in enumerate(midi.instruments):
            track.notes.sort(key=lambda x: x.start)
            for cut_id in range(nb_cuts):
                # 处理音符时间偏移
                ...
    except Exception as e:
        print(f"处理{midi_path}时出错:{e}")

3. 音乐符号的tokenization

3.1 选择tokenization方法

经过比较，我采用了MMM(Multi-Track Music Machine) tokenization方案，它有以下几个优势：

明确区分不同乐器轨道
保留音符的精确时间信息
结构清晰，易于模型学习

MMM的基本结构：

code复制PIECE_START GENRE=CLASSICAL 
TRACK_START INST=0 (钢琴)
BAR_START 
NOTE_ON=60 TIME_DELTA=4 NOTE_OFF=60 
NOTE_ON=62 TIME_DELTA=4 NOTE_OFF=62
BAR_END
TRACK_END
...
PIECE_END

3.2 实际tokenization过程

使用修改版的MMM-JSB代码库进行tokenization，主要调整包括：

添加GENRE标记用于条件生成
不量化音符时间，保持更自然的节奏
过滤掉时间签名非4/4的曲目

处理后的数据集示例：

code复制PIECE_START GENRE=JAZZ TRACK_START INST=32 BAR_START 
NOTE_ON=65 TIME_DELTA=4.0 NOTE_OFF=65 
NOTE_ON=63 TIME_DELTA=2.0 NOTE_OFF=63 
BAR_END TRACK_END PIECE_END

4. 训练自定义tokenizer

4.1 为什么需要自定义tokenizer

GPT-2原有的tokenizer是为英语设计的，直接用于音乐符号会出现问题：

错误拆分音乐标记（如"NOTE_ON"被拆成["NOTE","_","ON"]）
无法正确处理数字和小数点
特殊标记不匹配音乐生成需求

4.2 训练过程关键步骤

初始化WordLevel tokenizer
使用空格分割作为pre-tokenizer
添加音乐生成所需的特殊标记
在整个数据集上训练

python复制from tokenizers import Tokenizer, models, pre_tokenizers
from tokenizers.trainers import WordLevelTrainer

# 初始化tokenizer
tokenizer = Tokenizer(models.WordLevel(unk_token="[UNK]"))
tokenizer.pre_tokenizer = pre_tokenizers.WhitespaceSplit()

# 训练配置
trainer = WordLevelTrainer(
    special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]
)

# 训练并保存
tokenizer.train_from_iterator(get_training_corpus(), trainer=trainer)
tokenizer.save("tokenizer.json")

训练后的tokenizer能完美处理音乐符号：

code复制输入: "PIECE_START GENRE=POP NOTE_ON=60 TIME_DELTA=4.0"
输出: ["PIECE_START", "GENRE=POP", "NOTE_ON=60", "TIME_DELTA=4.0"]

5. GPT-2模型训练

5.1 模型配置选择

基于Chinchilla论文的缩放定律，我选择了适中的模型规模：

6层Transformer
8个注意力头
512维嵌入
2048上下文长度

python复制from transformers import AutoConfig, GPT2LMHeadModel

config = AutoConfig.from_pretrained(
    "gpt2",
    vocab_size=len(tokenizer),
    n_positions=context_length,
    n_layer=6,
    n_head=8,
    n_embd=512,
    pad_token_id=tokenizer.pad_token_id
)
model = GPT2LMHeadModel(config)

5.2 训练过程优化

使用Weights & Biases监控训练，关键配置：

学习率: 5e-4 (余弦衰减)
批量大小: 8
梯度累积: 2步
训练周期: 10

自定义Trainer类实现训练中生成音乐样本：

python复制class CustomTrainer(Trainer):
    def evaluation_loop(...):
        # 常规评估逻辑
        eval_output = super().evaluation_loop(...)
        
        # 生成音乐样本
        input_ids = tokenizer.encode("PIECE_START GENRE=JAZZ", return_tensors="pt").cuda()
        generated_ids = model.generate(input_ids, max_length=512, temperature=0.75)
        
        # 转换为音频并记录到W&B
        token_sequence = tokenizer.decode(generated_ids[0])
        note_sequence = token_sequence_to_note_sequence(token_sequence)
        audio = synthesize(note_sequence)
        wandb.log({"生成音频": wandb.Audio(audio, sample_rate=44100)})
        
        return eval_output

5.3 超参数搜索

使用W&B Sweeps进行自动化超参数优化：

yaml复制method: random
metric:
  name: eval/loss
  goal: minimize
parameters:
  learning_rate:
    distribution: log_uniform
    min: 5e-4
    max: 3e-3
  gradient_accumulation_steps:
    values: [1, 2, 4]

搜索发现的最佳配置：

学习率: 0.0005
梯度累积步数: 2
批量大小: 8

6. 模型部署与应用

6.1 创建Hugging Face Space

使用Gradio构建交互界面，通过Docker部署。关键组件：

FluidSynth音频合成引擎
自定义音乐可视化
流派条件控制

Dockerfile核心配置：

dockerfile复制FROM ubuntu:20.04
RUN apt-get install -y fluidsynth libasound2-dev ffmpeg
COPY requirements.txt .
RUN pip install -r requirements.txt

6.2 音乐生成流程

用户选择流派和初始条件
模型逐步生成token序列
将token序列转换为NoteSequence
使用FluidSynth合成音频
同时生成MIDI文件供下载

python复制def generate_music(genre, temperature=0.7):
    input_text = f"PIECE_START GENRE={genre.upper()}"
    input_ids = tokenizer.encode(input_text, return_tensors="pt").to(device)
    
    output_ids = model.generate(
        input_ids,
        max_length=512,
        temperature=temperature,
        pad_token_id=tokenizer.pad_token_id
    )
    
    token_sequence = tokenizer.decode(output_ids[0])
    note_sequence = token_sequence_to_note_sequence(token_sequence)
    audio = synthesize_audio(note_sequence)
    
    return audio, note_sequence