AI进化狂飙,DetectGPT能否识别最新模型生成结果?

作者: 李灿

来源: 智源社区

发布日期: 2023-04-17T22:55:69Z

本文介绍了斯坦福大学博士生Eric Mitchell开发的DetectGPT工具及其背后的思路——一种基于概率曲率检测的语言生成文本识别方法。讨论了当前大型预训练变换器(LLM)带来的挑战及潜在解决方案的重要性以及实际应用中的有效性和局限性并对未来的发展进行了展望.

语言模型给我们的生产生活带来了极大便利,但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。近日,斯坦福大学计算机系四年级博士生Eric Mitchell讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具,它可以帮助我们更好地分辨文章的来源和可信度,对保护信息真实、防止欺诈等方面具有重要意义。

本次报告主要围绕其功能、实现和效果等展开。

ChatGPT时代下的新困境:阅读时如果一篇文章辞藻华丽或是包含许多「看似合理」的例证,我们的大脑就会在潜意识里认为它是可信的人类大脑最普遍运行逻辑,而大语言模型的缺点便是模仿了人类的这一风格所以它们写出来的文字可能非常通顺而且看似很有说服力但却缺少事实佐证仅仅是华而不实比如当我们让ChatGPT写一篇论文时他会引经据典分析的有理有据但问题是引用和证据都是他胡乱编写的所以越来越多的人担心这些模型的出现会让网上充斥着各种错误信息或是被学生利用来完成作业阻碍他们的学习和写作能力纽约时报最近做了一份关于世界各地学生对ChatGPT看法调查调查显示许多学生认为固然能够帮助学习但是它并不总是正确还会帮助作弊当然语言模型的影响不只局限于教育界就比如CNET(美国一家科技媒体)就发现在其网站上有包括个人理财投资等在内的许多技术文章都是由同一个模型生成的这些文章很大一部分都有着巨大的事实错误因此:迫切需要一项新的技术来判断一篇文章是否为语言模型所作正篇如何开发用于检测语的新扬长避短减少样本量与提高精度的追求那么该如何实现这项针对语(LM)呢首先最简单的方法是直接训练另一个该方法可以分为以下三步收集大量的数据用于训练二元分类器区分人类文本和最后便需要测试他的训练成果能否顺利泛化到测试集这种优点是灵活的学习各种强大的从而在展现出良好的分类效果但其缺点也很明显首先我们需要获取大量的数据样本其次该类很容易过拟合可能在取得很好的效果但是如果用一些真正的文本来测试他往往表现不佳另一种直观的方法是基于源零样(zero-shot)如果使用该无须本身进行只需要一个待检计算每个词汇的对数概率Logprobability如果句子的平均很高或他们的平均logrank很低那么就有理由相信他是由AI所写总结一下就是倾向于局部最大值而却往往并非如此下介绍Eric整个流程将原始添加一系列轻微扰动然后我们将添加后的系列传给原始如从计算得到原始后将对数密度相除然后取最后求得均值大于某个阈值就有理由相信他是否则就认为是它的来源并不是比方说他可能为人也可能来自于另个上提到的这种学术称为DetectionwithProbabilityCurvature关于候选为了减轻压有限差分逼近方向导数的粗略结合上图表示在对我们要处求得的海森矩阵v是一个单位向量代表着在中的一则扰动的方向就可以表示为v转秩乘以H举例来说假定Xoriginal是原Xperturbed添后二者可以近似表简而言之先想象出的估算然后再使哈钦森迹估计法右式进右式的期望可以用海森矩阵迹来估计经过两次我们在只需即可这大大减少了同如果我们数值上低于负数就可以这篇是由实验结果出发检验首先当然要对这一现象级的进行这里Eric同其他比较得到了下面左边四种不同第种logpx就是我们上面提及第二种基本通过比较绝对值得接下来几种不过多介绍而分别代表了新闻维基百科故事创意t两种不同的数字表示被成功分辨占总不难发现相较四个有着较大优势且在不都有着很好致性接专⻔微调确保没有学习过些我们可以看到依然有着相对致的跨表现则往不佳那当使更呢下面GTP32现一如既稳健果修改程度x轴为我们更改百分y准确率可以看出相较其他依旧明显局限性和未来展望最大的局限性就是我们需要待判断计对数概那果使用不同的下图可以使看出会对产生较的影响所以未来的研究方向让可以使用不同第二个缺成本因为100此外也不是无法破解你可以巧妙地提示从让他写出更进而骗过说到克里斯教授我认为是个难得好大部分都不会直接参与只会大的给你指导;但是克里斯教授十分细致会在具体问题上给我启发我非常感激怎么看待引发的道德问题这是个好我也常常思考的出现利大于还是弊甚至会不会引发一些道德一方面确实提高了效率另一方面限制创造不过更多取决于他的者找到巧妙的临界点综合来看依然是乐观某些情况下它们已然成为了完全私人和互动导师目深度伪造热门话题比鉴别合成视频或图片请问方案迁移到领域吗然我认为很有可能因为总有着相似之处图像扩散代替扰动迁移中最大问题应该是并不会直接告诉你输出图的概率如果能重点解决这个问题应该就能实现请问为什么使用差异而不是直经验谈某种意义上这两种概念相似但是我们发现以1单位的太使用了缩小比例能够更好的提准确您是如何获取?我们先各个领域下大约20个单词作为大致相同主题样本了对有什么常见攻击方法吗首加入只有才会使用的流行语或可能会骗过多提示根据这也刻意的也是另一种方案此外使等等源也是种很可行案但是在于这样成本很高未改进随着迭代还会有优势开放像上面提到未来重点还是要提效率重新措部分将会全新挑战可能会全新的去设计所以我这个还有很多完善基准包含有代表性的好的基准应该是要包含有“攻击”这样才能全方位的出好坏一个好的基准最重要的可惜的是刚刚起步在这方面并不完善你是如何看待试图这件事情的技术就像是场猫鼠会更为流畅甚至会虽然现阶段并不好因为依然需要大量算增加负担但从角度来说更流畅确实会帮助人们更好提高工作和但如果能输出越来越通顺肯定也会有更多的人试图做一些欺骗之类行为尽管现我还不知道究竟会对社会带来多么大必须要警惕们

UUID: 7bd77853-521b-4d63-84db-3cb2dac8ee3c

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-04-17「转」_AI进化狂飙,DetectGPT能否识别最新模型生成结果?.txt

是否为广告: 否

处理费用: 0.0101 元