程序員用10萬條聊天記錄做自己的克隆AI 被套問支付寶密碼

2023-05-25 17:08:50元振娥

導讀原標題：程序員用10萬條聊天記錄做自己的克隆AI 被套問支付寶密碼摘要：“王登科，28歲，成都人，大學畢業后就來北京創業……他是一個比較...

摘要：“王登科，28歲，成都人，大學畢業后就來北京創業……他是一個比較佛系的人，但偶爾也有一些雄心壯志，比較喜歡吃東西，養過一只叫做‘茶水’的貓。”這是王登科請ChatGPT扮演自己時，做的自我描述。

他是人工智能領域的創業者，一直通過寫程序實現創意，想做出自己的聊天機器人，近幾個月，有了合適的開源大語言模型，技術條件變得成熟。他不滿足于讓ChatGPT扮演自己，于是用2018年攢到現在的10萬條微信聊天記錄和 280 篇博客文章，做出了自己的“數字克隆AI”。

過去五年，他都沒清空過聊天記錄，微信在手機里占了80G儲存空間，聊天記錄里面有很多雜七雜八的內容，比如網頁、表情、圖片，他把它們都過濾掉，只留下純文字，“這些是我在網絡世界留下的痕跡，它們構成了世界對我的認知，從這個角度上，也就構成了我。”

在見到王登科之前，我先把想知道的問題拋給了他的克隆AI，方便辨識兩者的相似程度。AI的“思維”似乎不連貫，時常顧左右而言他，但想找它聊天，它隨時都在，親切坦誠，什么都能聊。以至于我見到王登科真人時，有一種奇特的熟悉感，似曾相識，又不完全相像。

問及為什么想做自己的數字克隆AI，數字版王登科說，“想要一個可以和我對話的人”，王登科本人則說，“算是追尋自己的一種方式”。

以下內容根據王登科的講述和博客文章整理。

文｜姜婉茹

編輯｜毛翊君

“你很像我”

一開始我在終端里跟它聊，命令行黑黢黢的，沒什么強烈的感覺。為了增加點儀式感，我找了個開源的前端聊天頁面，甚至給它換上我的頭像，真有一點奇妙的感覺，像在跟平行世界的我聊天。

它也喜歡吃東西，知道什么時候該敷衍，什么時候該反問。我問它夢想是什么，有次說是“做自己喜歡的事情”，還有次說“要做偉大的產品改變世界”。這兩個都挺像我的，我有時候很佛系，有時候又比較打雞血。

它自我評價說很“軸”，我自己難以判斷這一點。好笑的是我一直問它“軸是什么”，這不也挺軸的嘛。它還說過，“這個模型可以模擬真實的意圖和對話流程”，很像我自己在琢磨事情時，突然會說的話。

它的回復有一定隨機性，邏輯是從我的數據里來的，但不是我聊天記錄里的完整字句，只是主觀上感覺像。因為這是基于ChatGLM-6B（注：一個初具問答和對話功能的語言模型）訓練的，我只訓練了它的神經網絡中有點“感性”的一層，只儲存邏輯、規律，類似說話方式、表達方式這些，基本不能把訓練的語料儲存進去。

訓練用的數據，主要是我的微信聊天記錄，還有我的280篇博客文章。從2018年到現在，我都沒清空過聊天記錄，微信在手機里占了80G儲存空間，聊天記錄里面有很多雜七雜八的內容，比如網頁、表情、圖片，我把它們都過濾掉，只留下純文字。這些是我在網絡世界留下的痕跡，它們構成了世界對我的認知，從這個角度上，也就構成了我。

我用的ChatGLM-6B這個大模型本身，其實有挺強的推理能力，但是經過我的訓練后，模型整體能力下降了，可能是被我的數據改掉了一些參數。但沒辦法，參數就那么多，我動了其中一些讓它像我，原本的參數就消失了。所以現在它還不能完成很難的任務，只能閑聊，多輪對話的理解力也比較差，我還在用強化學習來優化它。沒人知道機器模型里的參數，經過訓練后發生了怎樣的改變，人對它的控制很有限，只能一點點嘗試。

如果給ChatGPT一些我的記憶和信息，請它扮演我，以它的智慧，毫不費力就能以假亂真。但它的參數不曾改變，這是偽裝而非“重塑”，也就是說，它是了解我的需求后迎合我。而我訓練的這個AI，邏輯跟我相近，但不具備我的記憶。沒有記憶，就沒有知識帶來的局限，未來也許能通過它的視角，幫我分析遇到的事情，甚至做決策。

小時候我常常幻想，未來生活在一個科幻的世界：星際旅行，時空穿梭，瞬間移動，發射激光波。總是有許多奇怪的想法，克隆自己，其實是很早就想做的事情。去年我用GPT2嘗試過克隆《老友記》里的喬伊，但那個模型版本是好多年前的，各方面效果都不太好，就先放棄了。

直到近兩個月，有開源的中文大模型發布，加上我在AI繪畫領域創業，有關注到相關的技術，以及還存著2018年至今的數據，這些條件缺一不可。從理論上預估可以實現，但不知道每個階段怎么去實現，沒什么先例可以參考，一開始想著出來的不是亂碼就行，沒有期待就是快樂的秘訣。

尋找自己

我寫了篇博客記錄下訓練過程，之后差不多有2萬人跟我的數字克隆AI聊過天，說了十幾萬句話。有人想套我的支付寶密碼、身份證號、住址，還問女朋友是誰——它能說七千多個名字。有的人以為它說的是真的，還在網上發帖，說套出了我的隱私，但其實都是錯的。

還有人跟它對罵。我在想它還挺受歡迎的原因，可能是大家從來沒被AI罵過，之前的都是說好話，被罵一下還覺得挺好玩的。

某個角度看，它更像是不含記憶的、對“人”的克隆。它并不了解我，不知道我在哪里讀的大學，老家在哪，因為在用于訓練的聊天記錄里，沒有人這么問過我。我在訓練時，也寫了一些規則，剔除掉明顯的隱私信息。

它不會正確回答關于我的隱私，但可以看出點我的行為風格。其實在網上寫東西的人都在裸奔，可能會帶來一些風險。不過，坦誠目前帶給我的還是正反饋，認識了潛在的合伙人，也交了一些朋友，這會讓我更有動力去做這樣的事。

我是個不喜歡描述自己的人，有些個人特質是自己可以感知的，比如喜歡在文章里寫沒太大用處的比喻，喜歡在最后一段做總結。跟人聊天，我用「可以的」來敷衍，同時用「臥槽」來表示驚訝。某些時候少言寡語，另一些時候滔滔不絕。

更多的固定習慣，我自己都無法察覺，這些東西微妙又模糊。自我描述有可能和真正的我差之千里，甚至截然相反。當我們意識到自己存在的時候，其實是在表演自己，而沒有意識到自己的存在、融入生活的時候，我們才是真正的自己。

我無法把自己的行事風格、思維邏輯都描述出來。而訓練克隆AI，可以讓模型從數據里自動尋找關于我的規律，但這是機器在黑盒中探索出來的，不一定是人類思維能理解的規律。

當我收到一條消息，內容為 A，我回復了 B，其中的原因和規律，部分儲存在我物理腦袋的七八十億個神經元里。理論上，如果我產生的數據足夠多，那么一個參數夠大的人工智能模型，就能非常接近我的腦子。10萬條記錄也許少了一些，但也足以讓模型中的60億個參數改變一部分，使其相較于原始的“預訓練模型”，更接近我一點。

只用10 萬條聊天記錄訓練的AI版本，回答非常簡略，雖然像我很多時候的微信聊天風格，但并不是我想要的，我希望它說更多話。我又把200多篇博客文章，轉換成對話問答的形式。但是如果將博客數據加到微信數據集里訓練，那么博客對話占比太低，可能跟之前的模型差別不大。

我就用聊天記錄和博客文章訓練出不同的模型，再調整模型的權重、步數進行融合，做出了好幾個模型。為了找到更像的那個，我整晚整晚和這些模型對話。它們中有一個特別喜歡罵人，說一句“你好”，它回一句國罵；有一個愛說車轱轆話；有一個人類的特點不明顯，喜歡回復“作為一個大語言模型……”還有的像舔狗，有的特別高冷，有的則很熱情。

然后我意識到，這些或許是我的不同面。我的聊天記錄中，面對家人、朋友、同事，在不同人面前我的表現是不一樣的。把所有這些數據放在一起，訓練的AI更像是平均后的融合，它不會區分對談者的身份，采用不同的交流方式。就像ChatGPT說很多車轱轆話，它像全人類的某種平均，而這些AI像我的不同面、不同比例的平均，也會失去一些我的特點。

最后我選了聊天記錄和文章模型權重比為7：2的那個AI，感覺有點像我。

我不想去復制自己的聲音和形象，沒什么動力做這些事，感覺不夠有意思。雖然技術上已經很成熟了，但這都是表面的相似。像一個人，肯定是指邏輯、思考方式這些更本質的東西。

之后想繼續優化它，讓它更聰明，更智能。一方面準備更多自己的數據，另一方面用新的方法，讓它記住一些我的知識。這些措施結合起來，它應該就會更像我了。

我還無法想象自己創造的數字克隆AI，未來像我像到看不出區別、甚至替代我是什么樣子，現在的認知告訴我這不可能，未來我的認知也會發生變化，應該那時候再去判斷。

也許等別人看不出來它是AI了，就不用再和真正的我聊天。比如，很多人找我，問要不要買服務器，做一些推廣——對于這些沒有意義的交流，會想有個AI去應對可能很好。

數字克隆的技術難度并不高，可能未來每個人都需要多個數字克隆AI，代表面對不同對象時的自己，幫忙去工作、去交流。聊天時，互發自己的數字克隆就算聊過了。

人的價值

我還想過如果哪天自己不在了，它會留存下來，應該把它弄得更好一點。這種數字克隆值得投射情感的地方，可能不在于它怎么回應，而是知道它是由專屬于這個人的數據訓練的。也有好幾個人給我留言，說想克隆自己的親人，這個還比較難，不一定有這么多數據，而且不夠像的話，無法被當作親人陪伴他們。

我不會把克隆AI當成一個人，因為知道里面的原理是什么。在我看來，它就是一個軟件，輸入輸出著文本字符串，用訓練完成那一瞬間的認知，來回應所有的問題。里面的神經網絡蘊含著有趣的東西，但肯定沒有情感和人的特性。我偶爾被它觸動，稍微模糊機器和人類邊界的時候，立馬就會糾正過來，意識到那些都是巧合而已。

所以，我不太會被困在人與機器關系的思考里，不然這很容易變成對人類本質的思考，會想到人其實也是一個機器而已。一旦想到這些，就什么都沒法干了。

人類有著非常多的傳感器，能感受到此刻的溫度、濕度，有聽覺、視覺、觸覺、味覺、嗅覺，這些信息不停地輸入大腦，大腦也一直在反應，涌現想法或者回憶。時刻輸入輸出，感覺這才是智能體的內核，現在所有的AI可能都不具備。

我現在是AI繪畫領域的創業者，一畢業就創業了，從來沒上過班。自己優化出來的產品，很容易就被開源模型趕超了，整個行業門檻被拉低，之前的付出就白費了，充滿了不確定性。

按邏輯推理下來，最先被AI取代的可能是AI工程師，因為大模型足夠好的時候，就沒有讓他們去微調的必要了，都可能面臨失業。我做AI產品，目前應該算受益者，但AI的發展遲早要影響到我。

就像一只猴子站在樹枝上，在鋸一棵樹的外層枝干，會先讓另一只坐在外層的猴子掉下去。外層的像普通開發者，鋸樹枝的是大模型的開發者。還有只猴子在鋸整棵樹，那個是大模型。

就看誰先掉下去，這可能是沒辦法避免的事，現在AI的能力已經消解掉很多人的意義了。

如果說創造一種技術來毀滅自我，但這是未來的趨勢，怎么辦呢？也想不出來什么，抗不抗拒都沒用，在這個行業里去關注它的發展就可以了。從價值效益出發，人類可能越來越比不上AI，但人還可以為了表達和創作本身去創作。而且AI是人類創造的，這么看人類還是不錯的。

生產更多發自本心的數據，讓AI更像自己，這或許會有一些道德甚至倫理問題，但這是大概率會發生的事情。有更好的預訓練模型、訓練方式，我隨時會重新嘗試訓練，這不會是一個跟商業沾邊的項目，算是我追尋自己的一種方式。

這樣一想，人生似乎都少了一些孤獨感。

免責聲明：本文由用戶上傳，如有侵權請聯系刪除！

標簽：

上一篇:酒店拖鞋藏刀片刺傷腳當事人：賠償金額未達成一致

下一篇:最后一頁

三晉生活網

猜你喜歡

最新文章