ChatGPT“克星”:用 AI 识别 AI 生成的文本,英语论文阅读笔记都能测出

日期:2022-12-14 来源:手游巴士 作者:佚名

ChatGPT 的出现,让不少人看到了交期末大作业的曙光(手动狗头)。

无论是英语论文、还是阅读笔记,只要在 ChatGPT 的知识范围内,都可以拜托它帮忙完成,写出来的内容也有理有据。

不过,有没有想过你的老师也准备用“AI 文本检测器”一类的东西来防止你作弊?

像这样输入一段看起来没毛病的笔记,经过它一番检测,认为这段文字“由 AI 编写”(Fake)的可能性为 99.98%!

△ 文本由 ChatGPT 生成

换个数学论文试试?ChatGPT 的输出看起来没啥问题,却仍然被它准确识破了:

△ 文本由 ChatGPT 生成

这可不是靠瞎蒙或猜测,毕竟对方同样是个 AI,还是个训练有素的 AI。

看到这有网友调侃:用魔法打败魔法?

用 AI 写的东西来训练新 AI

这个 AI 检测器名叫 GPT-2 Output Detector,是 OpenAI 联合哈佛大学等高校和机构一起打造的。(没错,OpenAI 自家做的)

输入 50 个以上字符(tokens)就能较准确地识别 AI 生成的文本。

但即便是专门检测 GPT-2 的模型,用来检测其他 AI 生成文本效果也同样不错。

作者们先是发布了一个“GPT-2 生成内容”和 WebText(专门从国外贴吧 Reddit 上扒下来的)数据集,让 AI 理解“AI 语言”和“人话”之间的差异。

随后,用这个数据集对 RoBERTa 模型进行微调,就得到了这个 AI 检测器。

RoBERTa(Robustly Optimized BERT approach)是 BERT 的改进版。原始的 BERT 使用了 13GB 大小的数据集,但 RoBERTa 使用了包含 6300 万条英文新闻的 160GB 数据集。

其中,人话一律被识别为 True,AI 生成的内容则一律被识别为 Fake。

例如这是一段从 Medium 英文博客上复制的内容。从识别结果来看,很显然作者是亲自写的(手动狗头):

△ 文字来源 Medium@Megan Ng

当然,这个检测器也并非 100% 准确。

AI 模型参数量越大,生成的内容越不容易被识别,例如 1.24 亿参数量的模型“被抓包”的概率就比 15 亿参数更高。

同时,模型生成结果随机性越高,AI 生成内容被检测出来的概率也会更低。

但即便将模型调整到生成随机性最高(Temperature=1,越接近 0 生成随机性越低),1.24 亿参数模型被检测出的概率仍然是 88%,15 亿参数模型被检测出的概率仍然有 74%。

这是 OpenAI 两年前发布的模型,当时对 GPT-2 生成的内容就“一打一个准”。

现在面对升级版的 ChatGPT,检测英文生成内容的效果依旧能打。

但面对 ChatGPT 生成的中文,它的识别能力就不那么好了。例如让 ChatGPT 来一段作文:

AI 检测器给出是人写的概率为 99.96%……

当然话说回来,ChatGPT 也能检测自己生成的文本。

所以,不排除老师将你的作业直接交给 ChatGPT 来识别:

One More Thing

值得一提的是,ChatGPT 表示自己并不能访问互联网来搜索信息。

显然,它还意识不到 GPT-2 Output Detector 这个 AI 检测器的存在:

所以能不能像网友所说,让 ChatGPT 生成一段“不被 AI 检测器测出来的”内容呢?

很遗憾不能:

所以大作业还是自己写吧……

参考链接:

  • [1]https://weibo.com/1402400261/Mj7QtwRoH

  • [2]https://github.com/openai/gpt-2-output-dataset/tree/master/detector

  • [3]https://chat.openai.com/

  • [4]https://medium.com/user-experience-design-1/how-chatgpt-is-blowing-google-out-of-the-water-a-ux-breakdown-784340c25d57

本文来自微信公众号:量子位 (ID:QbitAI),作者:萧箫

上一篇:光通信基础知识大全

下一篇:诊断和基准测试工具 AIDA64 6.85 发布:为 AMD Ryzen 7000 处理器优化 AVX-512 测试

相关推荐

明年 1 月 13 日开播,Showtime 发布《法官大人》(Your Honor)第 2 季预告片

12 月 14 日消息,Showtime 发布了由布莱恩・科兰斯顿(Bryan Cranston)主演的《法官大人》(Your Honor)第 2 季的预告片。本季共 10 集,将于 1 月 13

行业投资暴涨 139%,谁在追逐“人造太阳”

美国能源部部长表示,核聚变的商业化,或许可能会在未来的几个十年内实现,但大概率不是之前说的 50-60 年。人类距离“人造太阳”的目标,似乎又近了一

2022 淘宝年度大赏揭晓:飞盘、冰墩墩、手机壳等成为年度宝贝

12 月 14 日消息,淘宝今日公布 2022 年度大赏,包括“十大年度宝贝”、“十大买家秀流派”、“十大神奇掌柜”以及“十大年度直播间”等四大类奖项

2000MB/s 的小米移动固态硬盘现已开启众筹:1TB 容量 649 元

感谢网友 劳资没有昵称 的线索投递! 12 月 14 日消息,小米上周推出了一款 1TB 的小米移动固态硬盘,现已在小米商城开启众筹,众筹价 649 元。这款硬盘

推特前 CEO 多西承认公司存在严重问题:不应删除内容或封杀帐号

北京时间 12 月 14 日上午消息,据报道,Twitter 联合创始人兼 CEO 杰克・多西(Jack Dorsey)虽未在今日的博文中直接提及埃隆・马斯克(Elon Musk),但他还

查看更多