0%

推荐一个关于大模型Scaling Law 的视频

Posted on 2024-09-18 In code Views:

简介

【油管博主Welch Labs：人工智能无法跨越这条线，我们也不知道为什么？】 https://www.bilibili.com/video/BV15NtseREJM/

学习的是分布
Scaling Law：Model Size、Data Size、Compute、Entropy（常数项、人类自然语言的本质属性）
高维空间、高维映射到低维、流形维度
需要更多关于模型好坏的度量

前沿的发展真恐怖。
还有，香农，你好厉害。

GPT

Scaling Law

主要内容

模型规模与性能：
- 通常情况下，随着模型参数数量的增加，模型的性能（如准确率或损失值）会持续提升。这意味着更大的模型能够捕捉到更复杂的模式和特征。
数据规模与性能：
- 除了模型规模，训练数据的数量同样影响性能。更多的数据通常会提高模型的泛化能力，减少过拟合的风险。
计算资源：
- 训练更大规模的模型需要更多的计算资源（如GPU或TPU），而计算能力的提升也能支持更大规模的训练。
经验法则：
- Scaling Law通常是经验性的，研究表明，模型的性能可以用某种数学公式（如幂律函数）来描述，这种公式通常通过大量实验数据得出。
应用实例：
- 在像GPT、BERT等大规模语言模型的发展过程中，Scaling Law得到了广泛验证。研究人员发现，增加模型规模和训练数据显著提升了这些模型在各种任务上的表现。

实际影响

资源分配：了解Scaling Law可以帮助研究者和工程师更有效地分配计算资源，以实现最佳的模型性能。
模型设计：在设计新模型时，Scaling Law提供了理论基础，指导研究者选择合适的模型规模和数据量。
未来发展：随着技术的进步，Scaling Law也促使研究者探索更大的模型和更丰富的数据集，从而推动AI的发展。

流形假设

流形假设认为高维数据在某种程度上可以在低维空间中表达。
语言数据的流形结构意味着，尽管语言的维度很高，但其实际的有效语义是稀疏点，这些稀疏点可以使用流形结构表达，嵌入和映射到低维空间去而不损失太多信息量。
这有助于模型在高维空间中降低复杂度，进行有效的学习和推理。