• 正文
    • LLM的學(xué)習(xí)數(shù)據(jù)從何而來?
    • LLM通過深度學(xué)習(xí)提高精度
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

還不懂“大語言模型”?今天就用漫畫帶你秒懂大語言模型!

06/06 11:49
907
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者:王符偉

還記得第一次和ChatGPT聊天時(shí)的詫異嗎?它像個(gè)無所不知的“百事通”,不僅能陪你談天說地、寫詩作文,還能幫你查資料、寫代碼……流暢的對(duì)話、精準(zhǔn)的回答,常常讓我們?nèi)滩蛔「袊@:“ChatGPT為什么這么聰明?”

人工智能領(lǐng)域?qū)<?、《大話大語言模型》作者王符偉對(duì)此進(jìn)行了一番專業(yè)、有趣的拆解——用趣味漫畫的形式,解讀LLM的學(xué)習(xí)數(shù)據(jù)從何而來,又是怎樣實(shí)現(xiàn)精準(zhǔn)溝通的?

LLM的學(xué)習(xí)數(shù)據(jù)從何而來?

在LLM領(lǐng)域,ChatGPT作為AI領(lǐng)域的杰出代表,它們通過深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等先進(jìn)技術(shù),從互聯(lián)網(wǎng)這片浩瀚的信息海洋中汲取知識(shí)。這些模型的學(xué)習(xí)過程,本質(zhì)上是對(duì)網(wǎng)絡(luò)上海量數(shù)據(jù)的深度挖掘與理解。以ChatGPT為例,它不僅展現(xiàn)了驚人的文本生成能力,還能夠根據(jù)上下文進(jìn)行智能對(duì)話,這背后離不開其龐大的數(shù)據(jù)基礎(chǔ)。

那么,ChatGPT究竟學(xué)習(xí)了哪些數(shù)據(jù)呢?根據(jù)相關(guān)學(xué)術(shù)研究,這類模型主要依賴于被稱為“公共爬取”的數(shù)據(jù)集。這一數(shù)據(jù)集是通過特定的技術(shù)手段,如網(wǎng)絡(luò)爬蟲,從互聯(lián)網(wǎng)上廣泛收集并整理得到的。這些爬蟲程序會(huì)遍歷網(wǎng)頁,提取文本信息,并將其匯總成龐大的數(shù)據(jù)庫。此外,像維基百科這樣的知名在線百科全書,以及部分經(jīng)過精心挑選的離線數(shù)據(jù),也是LLM學(xué)習(xí)的重要資源(見圖1)。

圖1,ChatGPT的出色表現(xiàn)離不開其龐大的數(shù)據(jù)基礎(chǔ)。這強(qiáng)調(diào)了數(shù)據(jù)在驅(qū)動(dòng)AI進(jìn)步中的核心作用

在數(shù)據(jù)規(guī)模上,這些模型處理的數(shù)據(jù)量堪稱驚人。在過濾之前,原始數(shù)據(jù)的容量高達(dá)45TB,這相當(dāng)于數(shù)千萬本普通書籍的信息量。然而,為了確保模型的準(zhǔn)確性和可靠性,研究人員會(huì)對(duì)這些數(shù)據(jù)進(jìn)行嚴(yán)格的篩選和清洗,去除不相關(guān)、低質(zhì)量或不適宜的內(nèi)容。經(jīng)過這一系列的預(yù)處理后,最終用于模型訓(xùn)練的數(shù)據(jù)量約為570GB,盡管有所縮減,但仍然是一個(gè)極為龐大的數(shù)字。

如果將整個(gè)網(wǎng)絡(luò)空間比作一個(gè)無垠的圖書館,那么ChatGPT就像是位不知疲倦的讀者,他瀏覽過圖書館中的絕大多數(shù)書籍,對(duì)網(wǎng)絡(luò)上公開的教材、資料了如指掌。正是這種對(duì)海量數(shù)據(jù)的深度學(xué)習(xí)和理解,使得ChatGPT能夠在瞬間生成高質(zhì)量、富有洞察力的文章,為人類的知識(shí)獲取和交流提供了全新的可能。

國內(nèi)的LLM,如文心一言(文小言)等,學(xué)習(xí)數(shù)據(jù)的來源主要依托于百度多年的搜索引擎積累,學(xué)習(xí)的數(shù)據(jù)包括大規(guī)模的自然語言文本語料庫、多樣化的數(shù)據(jù)集等。這些數(shù)據(jù)源包括公開的文本數(shù)據(jù)集、專業(yè)的數(shù)據(jù)集、用戶生成的數(shù)據(jù)以及通過特定技術(shù)手段收集的數(shù)據(jù)等。這些數(shù)據(jù)為模型提供了豐富多樣的訓(xùn)練素材,有助于提升模型的性能和泛化能力。

LLM通過深度學(xué)習(xí)提高精度

在探索LLM精確度提升的道路上,機(jī)器學(xué)習(xí)與強(qiáng)化學(xué)習(xí)已經(jīng)展現(xiàn)出了令人矚目的成效。這些顯著進(jìn)步的背后,與深度學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展緊密相連。深度學(xué)習(xí),這一受到人腦工作機(jī)制啟發(fā)而誕生的技術(shù),成為我們理解LLM性能飛躍不可或缺的背景知識(shí)。簡而言之,正是深度學(xué)習(xí)的不斷演進(jìn),為機(jī)器學(xué)習(xí)與強(qiáng)化學(xué)習(xí)在提升LLM精確度上提供了強(qiáng)大的支撐與無限可能。

在機(jī)器學(xué)習(xí)的廣闊天地里,有一個(gè)專業(yè)術(shù)語叫作“特征量”,它就像是給數(shù)據(jù)打上的標(biāo)簽,幫助機(jī)器理解和判斷。而深度學(xué)習(xí),作為機(jī)器學(xué)習(xí)家族中的一位明星成員,有著獨(dú)特的魅力:它不需要人類事先設(shè)計(jì)好特征量,而是能夠自己學(xué)習(xí)并掌握這些關(guān)鍵信息,就像是一個(gè)聰明的學(xué)生,不需要預(yù)先培訓(xùn),就能在實(shí)踐中逐漸摸索出學(xué)習(xí)的門道。

說到深度學(xué)習(xí)的應(yīng)用,垃圾郵件檢測(cè)就是一個(gè)生動(dòng)的例子(見圖2)。隨著電子郵件在日常生活中的普及,垃圾郵件也如影隨形,數(shù)量龐大,讓人頭疼。傳統(tǒng)的識(shí)別方法漸漸顯得力不從心,難以準(zhǔn)確區(qū)分哪些是有用的信息,哪些是煩人的垃圾。這時(shí)候,深度學(xué)習(xí)就發(fā)揮了它的強(qiáng)項(xiàng)—強(qiáng)大的模式識(shí)別能力和自動(dòng)特征提取能力,就像是一雙火眼金睛,能迅速準(zhǔn)確地識(shí)別出垃圾郵件,讓我們的郵箱更加清爽整潔。深度學(xué)習(xí)不僅讓機(jī)器變得更加智能,也在我們的日常生活中發(fā)揮著越來越重要的作用,幫助我們更好地應(yīng)對(duì)各種挑戰(zhàn)。

圖2,垃圾郵件檢測(cè)是深度學(xué)習(xí)的一個(gè)重要應(yīng)用領(lǐng)域,但并非其唯一應(yīng)用。在實(shí)際應(yīng)用中,還需要結(jié)合其他技術(shù)和策略來提高檢測(cè)的準(zhǔn)確性和效率

確實(shí),深度學(xué)習(xí)的能力聽起來相當(dāng)神奇,它確實(shí)能夠自動(dòng)完成“貼標(biāo)簽”這樣的任務(wù)。這背后的奧秘,在于深度學(xué)習(xí)借鑒了人腦的工作原理。我們的大腦里有著數(shù)不盡的神經(jīng)細(xì)胞,它們之間通過神經(jīng)突觸相互連接,傳遞信息,讓我們能夠思考、感知世界。深度學(xué)習(xí)正是受到這種結(jié)構(gòu)的啟發(fā),創(chuàng)造出了“神經(jīng)網(wǎng)絡(luò)”這一模型。這個(gè)模型就像是一個(gè)微型的電子大腦,它有著層層疊疊的結(jié)構(gòu),每一層都能捕捉到數(shù)據(jù)中的不同特征。當(dāng)數(shù)據(jù)輸入到這個(gè)神經(jīng)網(wǎng)絡(luò)中時(shí),它就像大腦一樣開始工作,自動(dòng)地分析、學(xué)習(xí),并給數(shù)據(jù)貼上正確的標(biāo)簽。正因?yàn)槟7铝巳四X的結(jié)構(gòu),所以才能像人類一樣獨(dú)立進(jìn)行判斷。圖3是神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),一個(gè)一個(gè)的圓圈相當(dāng)于人腦中的細(xì)胞,連接細(xì)胞的線相當(dāng)于神經(jīng)突觸。

圖3

神經(jīng)網(wǎng)絡(luò)模仿了人腦的構(gòu)造,在被稱為“中間層”的地方進(jìn)行各種判斷。因其內(nèi)部工作無法展現(xiàn),也被稱為“隱藏層”,是一種所謂的“黑匣子”操作

深度學(xué)習(xí),這一術(shù)語直觀地揭示了其核心理念—“深度”,意味著學(xué)習(xí)過程深入到了數(shù)據(jù)的多個(gè)層次。在這一框架下,自然語言等輸入信息首先被機(jī)器所理解并接納,隨后這些信息會(huì)穿越一系列中間處理層,也就是我們通常所說的隱藏層。以垃圾郵件識(shí)別為例,這些隱藏層負(fù)責(zé)分析輸入數(shù)據(jù),識(shí)別出是否蘊(yùn)含垃圾郵件的特征,并將這一判斷結(jié)果傳遞到最終的輸出層。

觀察圖示,不難發(fā)現(xiàn),眾多類似人類腦細(xì)胞的節(jié)點(diǎn)構(gòu)成了這些中間層,它們緊密相連,協(xié)同工作,使得計(jì)算機(jī)能夠模擬出類似人類的思考與判斷過程。正是由于這種從輸入到輸出的多層次結(jié)構(gòu),深度學(xué)習(xí)才得名如此。

深度學(xué)習(xí)具備強(qiáng)大的綜合分析能力,能夠考慮多種因素,做出接近人類判斷的結(jié)論。然而,這并不意味著深度學(xué)習(xí)在所有情況下都是最優(yōu)選擇。實(shí)際應(yīng)用中,根據(jù)具體需求和場(chǎng)景,其他方法有時(shí)可能達(dá)到更高的精確度。因此,在選擇是否采用深度學(xué)習(xí)方法時(shí),必須充分考慮實(shí)際目標(biāo)和條件。

深度學(xué)習(xí)的中間層工作方式對(duì)于外界而言往往如同一個(gè)神秘的“黑匣子”(見圖4)。這些層級(jí)通過復(fù)雜的計(jì)算和數(shù)據(jù)處理,對(duì)輸入信息進(jìn)行逐層分析和轉(zhuǎn)換,但具體是如何做出判斷并導(dǎo)出最終輸出的,這一過程并不直觀,也難以用簡單的語言完全解釋清楚。這確實(shí)成為將AI技術(shù)應(yīng)用于商業(yè)領(lǐng)域時(shí)的一個(gè)重要課題。

圖4 黑匣子特性使得深度學(xué)習(xí)的決策過程難以直觀理解和解釋。需要不斷探索和開發(fā)新的方法和技術(shù),以提高深度學(xué)習(xí)模型的解釋性和透明度

換句話說,深度學(xué)習(xí)在做出判斷時(shí)所依據(jù)的維度和邏輯,往往隱藏在大量的參數(shù)和算法之中,難以直接觀察和解釋。這種“黑匣子”特性,雖然賦予了深度學(xué)習(xí)強(qiáng)大的數(shù)據(jù)處理和模式識(shí)別能力,但同時(shí)也帶來了透明度和可解釋性方面的挑戰(zhàn)。因此,如何更好地理解和解釋深度學(xué)習(xí)的決策過程,是當(dāng)前AI研究中的一個(gè)重要方向。

換句話說,深度學(xué)習(xí)在做出判斷時(shí)所依據(jù)的維度和邏輯,往往隱藏在大量的參數(shù)和算法之中,難以直接觀察和解釋。這種“黑匣子”特性,雖然賦予了深度學(xué)習(xí)強(qiáng)大的數(shù)據(jù)處理和模式識(shí)別能力,但同時(shí)也帶來了透明度和可解釋性方面的挑戰(zhàn)。因此,如何更好地理解和解釋深度學(xué)習(xí)的決策過程,是當(dāng)前AI研究中的一個(gè)重要方向。

導(dǎo)入那些無法揭示其內(nèi)在邏輯與結(jié)構(gòu)的數(shù)據(jù)處理機(jī)制,確實(shí)伴隨著一定的風(fēng)險(xiǎn),這一點(diǎn)構(gòu)成了眾多觀察者對(duì)“黑匣子”式AI系統(tǒng)普遍持有的疑慮核心。因此,近年來,一個(gè)新興領(lǐng)域—可解釋的人工智能(XAI)逐漸成為科研與應(yīng)用領(lǐng)域的焦點(diǎn)。XAI致力于使AI系統(tǒng)的決策過程變得透明且可理解,從而增強(qiáng)人類對(duì)AI決策的信任與接納(見圖)。

圖5 XAI的崛起推動(dòng)技術(shù)范式從工具論轉(zhuǎn)向責(zé)任論,要求開發(fā)者通過可解釋邏輯主動(dòng)擔(dān)責(zé),打破算法黑箱的正確默認(rèn)。這一轉(zhuǎn)型催生了“AI倫理師”新角色,專職開展算法合規(guī)性審查與公平性評(píng)估,體現(xiàn)技術(shù)治理向過程透明和價(jià)值對(duì)齊的深化

以電子郵件過濾為例,傳統(tǒng)的AI系統(tǒng)可能會(huì)自動(dòng)將某些郵件標(biāo)記為垃圾郵件,而用戶卻無從知曉這一判斷的依據(jù)。而在XAI的框架下,系統(tǒng)能夠具體展示那些導(dǎo)致郵件被判定為垃圾的關(guān)鍵詞匯或特征,使得決策過程一目了然。這種透明度的提升,對(duì)于消除“因?yàn)槭茿I的決定,所以就盲目接受”的心態(tài)至關(guān)重要,尤其在商業(yè)環(huán)境中,這種心態(tài)往往是不切實(shí)際的。當(dāng)人類能夠理解和認(rèn)同AI的決策邏輯時(shí),不僅增強(qiáng)了AI技術(shù)的可信度,也極大地拓寬了其應(yīng)用范圍。更進(jìn)一步,如果AI系統(tǒng)能夠提供詳盡的解釋,那么這些系統(tǒng)被創(chuàng)造性地應(yīng)用于更多場(chǎng)景的可能性便顯著增加,從而促進(jìn)技術(shù)與社會(huì)經(jīng)濟(jì)的深度融合。然而,值得注意的是,追求可解釋性并非毫無代價(jià)。在實(shí)際應(yīng)用中,準(zhǔn)確性與可解釋性之間往往存在微妙的平衡關(guān)系。商業(yè)決策者在部署AI系統(tǒng)時(shí),必須根據(jù)具體目標(biāo)和情境,審慎地權(quán)衡這兩者的重要性。在某些情況下,可能需要犧牲一定的可解釋性以換取更高的準(zhǔn)確性;而在其他場(chǎng)景下,增強(qiáng)可解釋性則可能成為優(yōu)先考慮的因素,以確保決策過程的公正性、合規(guī)性及用戶的接受度。因此,如何在準(zhǔn)確性與可解釋性之間找到最佳平衡點(diǎn),是推動(dòng)XAI發(fā)展、實(shí)現(xiàn)AI技術(shù)廣泛且負(fù)責(zé)任應(yīng)用的關(guān)鍵所在。

 

一本書搞定大語言模型!用趣味漫畫解析ChatGPT、DeepSeek等主流大模型的核心機(jī)制!

▊《大話大語言模型》,王符偉 曹宇

本書全面介紹大語言模型(Large Language Model,LLM)的前世今生、工作原理、應(yīng)用實(shí)踐及未來趨勢(shì)。

全書共4篇:基礎(chǔ)篇追溯了大語言模型的起源與興起,深度揭秘了其工作原理,并對(duì)當(dāng)前現(xiàn)狀與研發(fā)競(jìng)賽進(jìn)行深入分析,同時(shí)展望了其未來發(fā)展前景。進(jìn)階篇聚焦于模型規(guī)模化、提示工程、思維鏈推理等關(guān)鍵技術(shù),詳細(xì)介紹了以ChatGPT為代表的大語言模型背后的技術(shù)原理,并探討問答系統(tǒng)在實(shí)際應(yīng)用中的落地實(shí)踐。高階篇深入剖析了Transformer架構(gòu)與預(yù)訓(xùn)練模型的核心機(jī)制,探討微調(diào)技巧在提升模型性能中的作用,以及大語言模型在多領(lǐng)域的應(yīng)用實(shí)踐,同時(shí)構(gòu)建和完善了大語言模型的API生態(tài)體系。展望篇探討了大語言模型如何重塑互聯(lián)網(wǎng)格局,驅(qū)動(dòng)各行業(yè)創(chuàng)新升級(jí)及其面臨的社會(huì)挑戰(zhàn)與應(yīng)對(duì)策略,展望了以DeepSeek為代表的大語言模型對(duì)未來技術(shù)發(fā)展與人們生活方式可能帶來的深遠(yuǎn)變革。

撰 ?稿 ?人:楊健亭責(zé)任編輯: 李馨馨審 ?核 ?人:曹新宇

相關(guān)推薦

  • AI算力革命驅(qū)動(dòng)光模塊產(chǎn)業(yè)躍遷:800G規(guī)?;渴鹋c1.6T技術(shù)競(jìng)速下的市場(chǎng)新紀(jì)元
  • 大語言模型是黑洞!AI研究者謹(jǐn)慎繞行!
    文章
    805
    03/26 10:05
  • RAG檢索不過關(guān)?試試這些優(yōu)化策略,精準(zhǔn)度飆升!
  • 研華推出GenAI Studio邊緣AI軟件平臺(tái)
  • 登錄即可解鎖
    • 海量技術(shù)文章
    • 設(shè)計(jì)資源下載
    • 產(chǎn)業(yè)鏈客戶資源
    • 寫文章/發(fā)需求
    立即登錄

    “工控有得聊”是機(jī)械工業(yè)出版社“機(jī)工工控”“機(jī)工通信”品牌旗下專業(yè)資訊和服務(wù)平臺(tái),致力于幫助讀者在電氣、通信、自動(dòng)化領(lǐng)域里,緊跟前沿資訊,掌握核心技術(shù),快速提升專業(yè)素養(yǎng)。工業(yè)知識(shí)服務(wù)平臺(tái),分享熱點(diǎn)資訊、精選深度技術(shù)文章、發(fā)布最新書訊。

    微信公眾號(hào)