https://www.wenxuecity.com/blog/202404/62690/2842.html
ChatGPT 引发的革命性创新来自于Google 的 Transformer architecture large language model. 其革命性来源于 一个崭新的attention model。现在所有人都转向transformer 的 attention model. 在这之前,是 Recurrent neural networks (RNNs) 主导,那么是谁第一个有了attention model的想法呢,是这位:
Jakob Uszkoreit :毕业于Technische Universität Berlin,柏林技术大学。没有 PhD 学位。在Google做Intern,然后在Google工作时凭直觉觉得 attention 比RNNs 更快,更有效,更适合并行运算。第一篇 attention model的论文四位作者(按论文排名):
Ankur Parikh: 印度人,本科:Princeton CS;PhD:CMU Machine Learning
Oscar Täckström:瑞典人,本科:Stockholm大学 哲学;PhD: Uppsala大学,CS
Dipanjan Das:印度人,本科:CMU CS。PhD:CMU CS Language Technologies
Jakob Uszkoreit:德国人,本科:柏林技术大学 CS
他们把attention model 运用在 语言翻译上,完胜 RNNs
Jakob Uszkoreit认为attention 不仅仅可以在语言上,更可以在AGI上,于是下面8人合作发表了著名的“Attention is all you need" 一文,这篇文章被誉为 改变AI历史的文章:
Jakob Uszkoreit:德国人,本科:柏林技术大学 CS
Noam Shazeer: 祖上德国犹太人,出生在费城,本科:Duke CS。此人重写了整个 transformer 程序
Lukasz Kaiser 波兰人,本科 Wroclaw大学 CS,PhD 亚琛工业大学 CS,OpenAI ChatGPT核心人物
Illia Polosukhin: 乌克兰人,本科:乌克兰国立技术大学 CS+应用数学
Ashish Vaswani 印度人,PhD USC CS
Llion Jones 威尔士人,本科 Birmingham 大学 CS
Niki Parmar 印度人,Master of Science USC CS (和Ashish Vaswani是一对)
Aidan Gomez 加拿大人/英国人,本科:多伦多大学 CS 是Kaiser的intern,后来读的PhD:牛津大学 CS
我的几点观察:
1)几乎没有一个美国人,但工作是在美国做的。
2)灵魂人物Uszkoreit,Shazeer,Polosukhin,Kaiser都是欧洲人
3)印度人善于参与
4)没多少名牌大学
5)一半PhD,一半没有PhD,灵魂人物Uszkoreit,Polosukhin,Shazeer都是本科
6) 几乎都是 CS 专业。 做ML的两类人,一类学CS的,另一类学统计的。做transformer全是学CS的
当今最伟大的创新就是这些人制造的,Attention模型革命性超过ChatGPT,因为ChatGPT只是利用Transformer的一个例子,transfomer还用在 Gemini 等等其他大语言模型,以及图像视频AGI(比Text文本更复杂)