科技前沿看點一種可以創作創造性詩歌的語言生成系統

新時代高科技不計其數越來越發達,小伙伴們看過不少科技新聞吧,在我們生活中應該也用到很多這些高科技東西,有哪些小伙伴值的關注的呢,今天就跟大家分享一篇有關科技方面知識,希望大家會喜歡。

在過去的幾十年里,研究人員開發了越來越先進的人工智能(AI)工具和計算技術,可以應用于各種環境。在這些技術中,能夠產生書面或口頭語言的技術已經引起了相當大的注意,特別是隨著新語音助手、機器人和新交互式設備的引進。

科羅拉多大學(UC)——科羅拉多斯普林斯和德魯里大學的研究人員最近開發了一種獨特的語言生成系統,可以產生創造性的詩歌詩句。他們的系統在arXiv上預先發布的一篇論文中提出,是對OpenAI開發的一種預先訓練好的語言模型GPT-2的微調。

加州大學科羅拉多斯普林斯分校(UC Colorado Springs)教授尤加爾·卡利塔(Jugal Kalita)是這項最新研究的負責人,從他在賓夕法尼亞大學(University of Pennsylvania)的研究生時期開始,他在過去30年里一直在進行自然語言生成的研究。他的第一篇關于自然語言生成的論文發表于1988年,其目標是按照一套基本規則,寫出可能出現在典型期刊上的文本段落。最近,受人工神經網絡在自然語言處理(NLP)方面的進步啟發,卡麗塔教授和他的學生開始開發用于生成短文、對話和創造性寫作的深度學習技術。

卡麗塔教授對TechXplore說:“研究自動生成詩歌這一主題的想法出現在2019年夏初,當時來自密蘇里州德魯里大學(Drury University)科羅拉多斯普林斯市科羅拉多大學(University of Colorado, Colorado Springs)的暑期研究實習生布倫丹·貝納(Brendan Bena)對自動生成歌詞表現出了興趣。”“他最初想要創造一個系統,試圖模仿歌詞中所表達的情感。”

由于大多數歌詞是受版權保護的,尋找大型數據集來訓練歌詞生成的深度學習模型是非常具有挑戰性的。Bena和Kalita教授因此決定開發一個詩歌生成的深度學習工具。然而,他們并沒有像以往的詩歌創作研究那樣,關注詩歌的結構或節奏等特征,而是探索了詩歌更富情感和創造性的方面。

Bena在接受TechXplore采訪時表示:“在意識到詩歌創作領域的研究和數據要多得多之后,我們將注意力轉移到了這個特定的主題上。”這項工作很大程度上是建立在文本生成的首要任務的基礎上的,而這一任務與之前的許多研究工作是同時進行的。然而,與之前的努力不同,我們希望更多地關注文本的內容、情感和創造力,而不是之前詩歌生成研究中發現的結構或節奏。”

為了開發他們的詩歌生成系統,Bena和Kalita教授首先從古登堡計劃和UC-Santa Cruz夢想銀行數據庫中收集了大量的文本。他們瀏覽了古登堡(Gutenberg)數據庫,尋找EmoLex中包含的詞匯。EmoLex是加拿大國家研究委員會(National Research Council of Canada)開發的情感詞匯數據集。

然后,研究人員將得到的數據集分成不同的“情感類別”,觀察每個提取片段中包含的EmoLex詞匯的數量,并利用這些數據訓練一個深度神經網絡。他們所訓練的模型是對GPT-2的一種適應,GPT-2是一種通過對其所訓練的數據中使用的語言風格建模來學習生成新的文本片段的體系結構。

貝納解釋說:“我們還將夢境數據和詩歌結合起來,輸入人工神經網絡,創造出所謂的‘夢境詩歌’。”“最后,我們有五種不同的情緒模式,分別是喜悅、悲傷、信任、憤怒和期待,但我們也有一個夢詩模式。如前所述,這一體系較少關注大量詩歌創作的結構,更多關注自由詩的風格,這種風格旨在模仿和復制真正詩人的技巧和創造力。”

研究人員要求人類用戶評估他們的系統生成的詩歌,同時使用Coh-Metrix工具來評估它生成的詩歌的質量。他們發現,在87.5%和85%的情況下,它所產生的詩歌能有效地引發悲傷和快樂。此外,當對夢數據和詩歌進行訓練時,他們的系統生成獨特的“夢幻”詩歌,這些詩歌捕捉到了所謂的“夢幻詩歌”的元素,李克特量表(Likert scale)得分為3.2分。

貝納說:“我們的研究結果表明,實際上,文本可以被生成,從而激發讀者的情感,它可以像藝術家希望注入到作品中的那種創造力。”“我們相信我們的研究是創造性詩歌創作領域的一部小說,希望我們的研究能為這一領域的未來工作打開大門。”

貝納和卡麗塔教授是最早在詩歌創作中展示機器創造力的人之一。在接下來的研究中,研究人員計劃提高他們的系統所創作的詩歌的質量,同時也將他們的方法應用到其他語言的詩歌創作中。

貝納說:“如果我們對訓練數據進行更多的整理,我們相信神經網絡架構可以更好地捕捉我們想要創作的詩歌的情感和夢境。”“事實上,盡管EmoLex詞典是一個非常有用的數據集,但它的詞匯量并不能解釋古騰堡(Gutenberg)的一些詩歌中出現的所有老式英語。”

在未來,研究人員希望復制他們的實驗,重點放在短語或分段級詞匯上,因為這可以讓他們更有效地捕捉基于情感的文本中的依賴性。他們的研究也可以使用更復雜的基于神經網絡的架構進行重復,這可能會提高詩歌的語法和句子結構的質量。

Bena和Kalita教授已經用他們的系統創作了夢詩,他們最終也可以把它應用到其他的創作風格上,比如消除詩歌。擦除詩是通過從現有的文本中提取特定的或隨機的單詞,然后使用它們來形成新的詩句。

卡麗塔教授說:“最后,我們還在利用遷移學習的方法,用不同的語言創作詩歌。”例如,加州大學科羅拉多斯普林斯分校(UC-Colorado Springs)的碩士研究生肖恩·塔克(Shaun Tucker)一直在用OpenAI預先訓練過的gps -2模型,用多種印歐語言創作詩歌。到目前為止,我們已經生成了英語、西班牙語、烏克蘭語、印地語、孟加拉語和阿薩姆語的詩歌,我們發現,經過大量英語文本預處理的深度學習生成模式GPT-2,可以用所有這些語言的散文和詩歌進行訓練,生成詩歌。”

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時候聯系我們修改或刪除,多謝