Ted Chiang: GPT是对互联网的一个有损压缩
Ted Chiang: 1. GPT是对互联网的一个有损压缩,就像JPEG,这种有损压缩会让人产生它有智能的错觉 2. 如果GPT4的训练数据排除了GPT3的生成数据,那么这些生成数据到底都人类有用还是没用? 3. 它可以正确回答1+1=2但是不理解其中的逻辑,究竟是说明人类在数理逻辑方面更胜一筹,还是说理解时间的正确方法其实是统计学(就如同GPT理解互联网一样)4. 写作很重要,是一个思考的过程,别让AI代替它 5. 它会不会让网上这种互相复述的内容变得更多?而且更加隐蔽?(搜攻略出来几十篇,但实际上都是来源于同一篇?)
以上是我对这篇文章的总结,下面是AI对这篇文章的总结(Claude2):
这篇文章以一起Xerox复印机的故事为例,讲述了 ChatGPT 等大型语言模型与有损压缩之间的相似之处。文章指出,ChatGPT 是互联网上所有文本的模糊 JPEG 版本,它保留了大量信息,就像 JPEG 图像保留了原始高分辨率图像的许多信息一样,但是如果你查找确切的字节序列,就找不到,只能得到近似值。文章认为,ChatGPT 重述而非直接引用网络上的内容,让它看起来像是理解了材料,而非简单复述。但是就像复印机生成的错误数字一样,ChatGPT 的“杜撰”也是压缩误差。文章还讨论了大型语言模型在取代搜索引擎、生成网络内容、帮助人类创作等方面的应用潜力。它指出,虽然这种技术在某些创作领域可能有用,但与原创写作无关。总体而言,文章认为大型语言模型就像模糊的 JPEG,它只是对已有信息的重组,对于寻找真知识还有一定距离。
https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

