-电子书大全-/多模态大模型论文（300份）/4个多模态大模型关键技术/多模态指令微调

主页/多模态大模型论文（300份）/4个多模态大模型关键技术/多模态指令微调/

Aligning Large Multi-Modal Model with Robust Instruction Tuning.pdf
ChatBridge Bridging Modalities with Large Language Model as a Language Catalyst.pdf
Cheap and Quick Efficient Vision-Language Instruction Tuning for Large Language Models.pdf
DetGPT Detect What You Need via Reasoning.pdf
GPT4Tools Teaching Large Language Model to Use Tools via Self-instruction.pdf
InstructBLIP Towards General-purpose Vision-Language Models with Instruction Tuning.pdf
LAMM Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark.pdf
Listen, Think, and Understand.pdf
LLaMA-Adapter Efficient Fine-tuning of Language Models with Zero-init Attention.pdf
LLaMA-Adapter V2 Parameter-Efficient Visual Instruction Model.pdf
LLaVA-Med Training a Large Language-and-Vision Assistant for Biomedicine in One Day.pdf
LLaVAR Enhanced Visual Instruction Tuning for Text-Rich Image Understanding.pdf
LMEye An Interactive Perception Network for Large Language Models.pdf
M3IT A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning.pdf
Macaw-LLM Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration.pdf
MIMIC-IT Multi-Modal In-Context Instruction Tuning.pdf
MiniGPT-4 Enhancing Vision-Language Understanding with Advanced Large Language Models.pdf
mPLUG-Owl Modularization Empowers Large Language Models with Multimodality.pdf
MultiInstruct Improving Multi-Modal Zero-Shot Learning via Instruction Tuning.pdf
MultiModal-GPT A Vision and Language Model for Dialogue with Humans.pdf
PandaGPT One Model To Instruction-Follow Them All.pdf
PMC-VQA Visual Instruction Tuning for Medical Visual Question Answering.pdf
Shikra Unleashing Multimodal LLM's Referential Dialogue Magic.pdf
Video-ChatGPT Towards Detailed Video Understanding via Large Vision and Language Models.pdf
Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding.pdf
VideoChat Chat-Centric Video Understanding.pdf
VisionLLM Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks.pdf
Visual Instruction Tuning with Polite Flamingo.pdf
Visual Instruction Tuning.pdf
X-LLM Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages.pdf