科技前沿看點研究人員開發了一種識別計算機生成文本的方法

新時代高科技不計其數越來越發達,小伙伴們看過不少科技新聞吧,在我們生活中應該也用到很多這些高科技東西,有哪些小伙伴值的關注的呢,今天就跟大家分享一篇有關科技方面知識,希望大家會喜歡。

這個問題引發了Sebastian Gehrmann博士學位。SEAS的候選人和IBM的研究員Hendrik Strobelt開發了一種統計方法,以及一個開放式訪問交互式工具,用于檢測AI生成的文本。

自然語言生成器通過預測最常見的單詞來訓練數以千萬計的在線文本并模仿人類語言。例如,單詞“have”,“am”和“was”靜態地最有可能出現在單詞“I”之后。

使用這個想法,Gehrmann和Strobelt開發了一種方法,它不是識別文本中的錯誤,而是識別過于可預測的文本。

“我們的想法是,隨著模型變得越來越好,它們肯定比人類更糟糕,可檢測到,與人類一樣好或更好,這可能很難用傳統方法檢測到,”格爾曼說。

“之前,你可以通過所有錯誤來判斷文本是機器生成的,”Strobelt說。“現在,它不再是錯誤,而是使用極有可能(并且有點無聊)的單詞來調出機器生成的文本。通過這個工具,人類和AI可以一起工作來檢測假文本。”

Gehrmann和Strobelt將于7月28日至8月2日在SEAS的計算機語言學會(ACL)會議上與SEAS計算機科學副學士Alexander Rush共同撰寫他們的研究成果。

Gehrmann和Strobelt的方法,稱為GLTR,基于一個模型,該模型使用來自網站的4500萬個文本 - 公共版本的OpenAI模型GPT-2。因為它使用GPT-2來檢測生成的文本,所以GLTR最適合GPT-2,但也可以很好地對抗其他模型。

以下是它的工作原理:如果您將一段文本輸入到工具中,它會突出顯示綠色,黃色,紅色或紫色的文本,每種顏色都表示該單詞在其前面的單詞上下文中的可預測性。綠色意味著這個詞是非常可預測的,黃色,適度可預測,紅色不可預測,紫色意味著模型根本不會預測這個詞。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時候聯系我們修改或刪除,多謝