Ted Chiang: GPT是对互联网的一个有损压缩

Jul 13, 2023

Ted Chiang: 1. GPT是对互联网的一个有损压缩，就像JPEG，这种有损压缩会让人产生它有智能的错觉 2. 如果GPT4的训练数据排除了GPT3的生成数据，那么这些生成数据到底都人类有用还是没用？ 3. 它可以正确回答1+1=2但是不理解其中的逻辑，究竟是说明人类在数理逻辑方面更胜一筹，还是说理解时间的正确方法其实是统计学（就如同GPT理解互联网一样）4. 写作很重要，是一个思考的过程，别让AI代替它 5. 它会不会让网上这种互相复述的内容变得更多？而且更加隐蔽？(搜攻略出来几十篇，但实际上都是来源于同一篇？)

以上是我对这篇文章的总结，下面是AI对这篇文章的总结（Claude2）：

这篇文章以一起Xerox复印机的故事为例,讲述了 ChatGPT 等大型语言模型与有损压缩之间的相似之处。文章指出,ChatGPT 是互联网上所有文本的模糊 JPEG 版本,它保留了大量信息,就像 JPEG 图像保留了原始高分辨率图像的许多信息一样,但是如果你查找确切的字节序列,就找不到,只能得到近似值。文章认为,ChatGPT 重述而非直接引用网络上的内容,让它看起来像是理解了材料,而非简单复述。但是就像复印机生成的错误数字一样,ChatGPT 的“杜撰”也是压缩误差。文章还讨论了大型语言模型在取代搜索引擎、生成网络内容、帮助人类创作等方面的应用潜力。它指出,虽然这种技术在某些创作领域可能有用,但与原创写作无关。总体而言,文章认为大型语言模型就像模糊的 JPEG,它只是对已有信息的重组,对于寻找真知识还有一定距离。

https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

tianlong’s Newsletter

Discussion about this post

Ready for more?