Agent-Tuning
背景开源通用的LLMs在执行 agent 任务时,远不如 ChatGPT 和 GPT-4 等商业模型。在很多实际应用场景,无法使用最强的大模型 API ,需要私有化部署小模型,需要控制推理成本。提高agent任务的能力,要么是专注对某个LLM进行agent调优,要么是写一个专门的agent框架。论文里提出了Agent-Tuning,其目标是提高LLMs的通用代理能力,同时至少保持它们的一般LLM能
背景开源通用的LLMs在执行 agent 任务时,远不如 ChatGPT 和 GPT-4 等商业模型。在很多实际应用场景,无法使用最强的大模型 API ,需要私有化部署小模型,需要控制推理成本。提高agent任务的能力,要么是专注对某个LLM进行agent调优,要么是写一个专门的agent框架。论文里提出了Agent-Tuning,其目标是提高LLMs的通用代理能力,同时至少保持它们的一般LLM能
训练模型时什么消耗了所有内存? model weights gradients optimizer states forward activations saved for gradient computation temporary buffers functionality-specific memoryrefer to model_memory_anatomy 以 meta-llam