Post AWmpYrTsd4FuBhcPOi by Camus@bgme.me
(DIR) More posts by Camus@bgme.me
(DIR) Post #AWmoK80enHLz9WMOuW by bgme@bgme.me
2023-06-17T15:20:00Z
0 likes, 1 repeats
以近期的一则新闻开篇。《AI 生成的数据训练 AI 将导致模型退化乃至崩溃》https://36kr.com/p/2303919815749129『来自牛津、剑桥、帝国理工等机构研究人员发现,如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷。也就是,随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免。』2023年被誉为AI元年,ChatGPT 出现了,然后深深的改变了世界,这种改变是好是坏暂且不提,但有一个事实是确定的:2023年ChatGPT出现之后,人类世界流通的数据(不仅仅是互联网)中不可避免的混入了大量的AI生成数据。换而言之,如果你想寻找没有被生成式AI的生成数据污染过的人类数据集,你只能找2023年ChatGPT出现之前的数据了。这让我不禁想起了“低本底钢”。『低本底钢(英語:Low-background steel),又稱低背景鋼、先原子钢(pre-atomic steel),是在1940年代和1950年代第一代原子弹爆炸前生产的钢材。由于在1945年,随着三位一体核试验、广岛、长崎核轰炸,以及冷战早期一系列核武器试验的进行,世界背景辐射量有明显升高。现代生产的钢铁由于普遍使用大气气体而被放射性同位素污染,低背景鋼的称呼由此而来。因为其没有受到过此类污染,这种钢材被使用在高精度放射性同位素检测设备上。 』https://zh.wikipedia.org/wiki/%E4%BD%8E%E6%9C%AC%E5%BA%95%E9%92%A22023年ChatGPT出现之前的人类数据,从某种意义上讲便是一种不可再生的“低本底钢”。但是模型并不是训练好了就一劳永逸了,可以永远使用了。人类社会与文化随着时间的推移,不断的变化,ChatGPT 这样的大语言模型也必须不断训练才能紧跟时代。正如36Kr文章标题中写的那样:GPT-5将死于GPT-4背刺?但数据环境中混入难以区分的生成式AI数据毫无疑问给下一代AI的训练带来了一些问题。写到这里,我突然有一些理解最近Reddit收紧第三方API的决定了。如果无法找到高效准确地剔除AI生成数据的方法,我觉得是不太可能找到这样的方法的。那么像 Reddit 这样有着大量活跃用户,每天产出大量人类数据的网站,对于下一代生成式AI的训练是至关重要,不可获缺的。Reddit 自然也可以挟数据自重,向OpenAI那样的AI企业大笔收钱。大概是疑邻窃斧,如今回过头看 OpenAI 呼吁加强AI监管的新闻顿时有了新感觉。《OpenAI 呼吁设立监管超级智能的国际机构》https://www.solidot.org/story?sid=75034《OpenAI 创始人呼吁制定 AI 安全标准》https://www.solidot.org/story?sid=74979之前看到这样新闻时感想是OpenAI还是一个挻有社会责任感的公司,但如今我却在怀疑,OpenAI内部是不是早就知道使用AI生成数据训练AI会导致模型退化乃至崩溃,而OpenAI对这个问题也没有好的解决办法,因此便呼吁AI监管,呼吁限制AI使用。也许不久的将来,会出现一个类似于核不扩散条约的AI不扩散条约。最后再说说,可能对我这样的小站长的影响。AI元年的到来,在我看来并不是一件好事。从某种意义上说,可谓是给被Facebook这类封闭花园企整了个半死的开放互联网,又补上了重重的一刀。对比中国大陆互联网与非中国大陆互联网,除了强制实名制,大力将用户向移动端赶之外,便是反爬特别严,公开可访问数据更少。这样的现状与国内司法不健全,版权保护差,爬站做站的人特别多是人不开的。但是生成式AI来了,爬数据一下子变成非常非常有利可图的事了。novel ai 突然就学会了二次元画风便是一个例证。《AI 图像抓取工具引发争议》https://www.solidot.org/story?sid=74799『被用于在网站上抓取图像构建用于训练 AI 模型的数据集的下载工具引发了争议。网站抱怨抓取工具不遵守他们在 robots.txt 中列举的要求,而抓取工具 img2dataset 的作者 Romain Beaumont 则宣称所有人能在未来受益于 AI。他要求不想被抓取图像的网站主动在 HTTP 头文件中添加 X-Robots-Tag: noai 和 X-Robots-Tag: noindex 等标记,否则他的工具将会不管不顾的抓取图像。他说,一部分人不理解 AI 和开放 AI 的潜力,还因此决定与之对抗。』为了这样的暴利,爬虫全网爬那是基本操作,至于什么 robots.txt 那是什么东西。面对爬虫,各个站点会不会产生与中国大陆网站类似的反应,收紧访问权限。目前的互联网大企业会不会出于利润考量作出与 Reddit 相似的决定——收紧数据访问权限,高价卖API。但不管怎样,这对于开放互联网都是一种深重的打击。AI时代,数据就是黄金,尤其是真实人类产生的数据。你开放,你就被剥削,你就是最大的傻瓜。
(DIR) Post #AWmpYrTsd4FuBhcPOi by Camus@bgme.me
2023-06-17T15:33:52Z
0 likes, 1 repeats
@bgme 【OpenAI内部是不是早就知道使用AI生成数据训练AI会导致模型退化乃至崩溃】这一点是肯定的,去年大量学者就已经点明,各种人类语料只够使用到明年(换句话说就是全爬了AI也就这样了)而AI会彻底毁灭社区生态,A站P站老福特ao3都是例子,没了平台当然这帮贼也没好地方去偷了事实上最后创作者可能会放弃互联网也说不定----------------AI是大坏,但是就有很多人,就是无知SD的ceo - emad直言,假如网上的数据爬没了就翻越防火墙去爬用户硬盘里的就是一群贼,其他的非创作者则是单纯地与贼共伍(同时不听不闻AI的危险性)
(DIR) Post #AWmqa3EmVKBWtSgfom by AizawaTsuki@alive.bar
2023-06-17T15:45:15Z
0 likes, 0 repeats
@bgme 所以我对自由软件的未来是悲观的,迟早有一天自由软件会毁在CTaaS一类的生成式AI手里,哪怕这些AI都以尊重Copyleft的方式将生成的源代码贡献给社区,最终也会导致自由软件因生成式AI自学习带来的熵增效应导致代码质量变差,这对于商业项目可能影响不大(有专职测试和维护人员),但对于本就缺乏维护人员的社区自由软件而言无疑是灾难。
(DIR) Post #AWmthiumFN7w2jgFlY by bgme@bgme.me
2023-06-17T16:20:17Z
0 likes, 0 repeats
@AizawaTsuki AI对于自由软件事业是重大的挑战。AI的问题在于AI都是强数据依赖的。强数据依赖,意味着即使算法开源,训练方法开源,你没有数据照样训练不出模型。退一步就算是你终于有了模型了(不管是你自己搜集数据训练出来的,还是商业公司公开的),模型的持续更新也是需要源源不断的用户使用数据。在这方面,道德更低下,喜欢追踪用户的闭源商业软件毫无疑问存在巨大的优势。总之,强数据依赖的AI,天生就具备一套逆淘汰机制,对于自由开源软件相当不友好。
(DIR) Post #AWn5Ng6QBxK4ynKq12 by koncho@donotban.com
2023-06-17T18:31:02Z
0 likes, 0 repeats
@bgme 比较可能的一个未来就是,机器生成内容产生凯斯勒级联效应,让网络文字交流彻底失效,人类要么回到线下交流,要么进入更加封闭的平台
(DIR) Post #AWnqRsLRJTaTx5rZWi by gpepper@m.cmx.im
2023-06-18T03:18:30Z
0 likes, 0 repeats
@bgme 我想起几年前的一个科幻小说《锈蚀之海》,人机大战,人工智能占领世界之后人类灭绝了,高级AI发现他们想要再发展必须吞没低级AI的全部数据,人机战前的真人生活数据价值最高。
(DIR) Post #AWpCUY4JY3fy5KUb56 by septentrium@liker.social
2023-06-18T19:00:12Z
0 likes, 0 repeats
@bgme 好文章,数据就是黄金,比金子更珍贵,所以数据就是比特币,这是加密货币真正的星辰大海。
(DIR) Post #AWqKC4JgQ9fDOCL9bE by bgme@bgme.me
2023-06-19T08:01:13Z
0 likes, 0 repeats
@albphy > 最不济请人来手工输入也行刚刚在 Solidot 上看到的新闻。《众包工人用 AI 做数据标注等零工》https://www.solidot.org/story?sid=75272
(DIR) Post #AWqKNTPpRXfOPzeXpo by AizawaTsuki@alive.bar
2023-06-18T07:38:56Z
0 likes, 0 repeats
@albphy @bgme 是的,为了避免AI被自己生成的有问题的数据所污染,所以才需要有人工来进行数据标准和筛选(OpenAI在非洲的用工争议就和数据筛选标注有关)。这个过程相当于“废热再利用处理”(如火力发电的“热电联产”),进一步的提高了能量的利用率(效率),减少了了最极端的情况(因自学习带来的熵增导致AI崩溃)发生的概率。
(DIR) Post #AWqKNU6MtNh6XvYW8m by bgme@bgme.me
2023-06-19T08:03:18Z
0 likes, 0 repeats
@AizawaTsuki @albphy > 最不济请人来手工输入也行但是请人工手动进行数据筛选与标注也不一定可靠。《众包工人用 AI 做数据标注等零工》https://www.solidot.org/story?sid=75272