人工智能语言模型的开发一直是人工智能的重要细分。
人工智能语言模型应用程序包括搜索引擎,文本生成,个性化对话工具和软件生成。
2020年5月,OpenAI研究人员团队发布了具有里程碑意义的AI模型GPT-3。
GPT-3是在570GB文本数据上训练的语言模型。
因此,就训练数据和生成能力而言,GPT-3是截至2020年最大的公开发布的语言模型。
此外,OpenAI的GPT-3已将GPT-3转变为一项服务,该服务提供了开放的AIAPI,可以被称为与先前坚持基础研究的想法相反,并且为获得经验资格的行业专业人士或学者开放了少量经验资格。
依此类推,开发了许多惊人的演示。
包括回答问题,翻译,撰写文章,甚至进行数学计算并编写代码。
GPT-3撰写的文章几乎达到了伪造的地步。
在OpenAI测试中,评估人员很难判断新闻是真是假,检测准确率仅为12%。
但是现在,谷歌研究人员已经开发了一种新的语言模型,其中包含超过1.6万亿个参数,远远超过了OpenAI开发的GTP-3(1750亿个参数)的规模,并且已成为迄今为止最大的手册。
智能语言模型的效率是Google之前开发的最大语言模型T5-XXL的4倍。
语言模型使用SwitchTransformer方法进行大规模训练,这是一种“稀疏激活”方法。
仅使用模型权重的子集或对模型中输入数据的参数进行转换以有效降低计算强度的技术。
尽管在某些实验中,该模型的得分低于较小的模型。
但是在相同的计算资源下,预训练速度提高了7倍。
这些改进已扩展到多语言设置,并且我们测量了所有101种语言中mT5基本版本的增益。
最终,我们通过在“巨大的干净的爬虫语料库”上预训练具有数万亿个参数的模型来增加语言模型的当前规模,并实现了T5-XXL模型的4倍加速。
研究人员认为,稀疏性可以使模型在将来在多种不同媒体中成为多模式的优势。
这也为深入研究人工智能语言模型提供了更多指导。