本文提出了一种新颖的文本到图像扩散模型——低秩专家混合(MoLE),旨在提升以人类为中心的图像生成质量,特别是在面部和手部细节的自然度方面。当前的扩散模型在生成与人类相关的图像时,常常由于训练数据的不足而导致图像质量不理想。为了解决这一问题,研究者们从数据和方法两个方面入手。首先,他们构建了一个包含超过一百万张高质量人类场景图像的综合数据集,特别关注面部和手部的特写图像,以提供丰富的先验知识。其次,提出了MoLE方法,利用低秩模块作为专家进行特定训练,以更好地处理面部和手部的细节。通过这些创新,MoLE在生成自然人类图像方面表现出色,超越了现有的最先进技术。