大連將30個(gè)中風(fēng)險(xiǎn)地區(qū)調(diào)整為低風(fēng)...
大連將30個(gè)中風(fēng)險(xiǎn)地區(qū)調(diào)整為低風(fēng)險(xiǎn)地區(qū) ...
什么,最懂表情包的中文開(kāi)源大模型出現(xiàn)了??!
就在最近,來(lái)自清華的一個(gè)叫VisualGLM-6B的大模型在網(wǎng)上傳開(kāi)了來(lái),起因是網(wǎng)友們發(fā)現(xiàn),它連表情包似乎都能解讀!
(資料圖片僅供參考)
像這個(gè)臘腸犬版蒙娜麗莎,它不僅準(zhǔn)確理解了這是臘腸犬與蒙娜麗莎的“合體照”,還點(diǎn)出了這只是一幅虛構(gòu)作品:
又像是這個(gè)正在出租車后熨衣斗的男子,它也一眼看出了“不對(duì)勁”的地方:
值得一提的是,在此前GPT-4剛發(fā)布時(shí),網(wǎng)友們也同樣將它用來(lái)測(cè)了測(cè)常識(shí)理解能力:
就如同弱智吧問(wèn)題是大模型語(yǔ)言理解能力的benchmark一樣,表情包簡(jiǎn)直就是大模型圖片理解能力的benchmark。
要是它真能理解網(wǎng)友們奇奇怪怪的表情包,那AI簡(jiǎn)直沒(méi)有什么不能get到的信息點(diǎn)了??!
我們趕緊測(cè)試了一波,看看它究竟效果如何。
gif也能看懂,但解讀太過(guò)正經(jīng)
目前,VisualGLM-6B已經(jīng)推出了網(wǎng)頁(yè)端試玩版。
只需要在Hugging Face的試玩界面上傳圖片,再與它進(jìn)行“對(duì)話”,它就能生成理解圖片的結(jié)果:
先試試初級(jí)難度的表情包。
官方給出了幾個(gè)問(wèn)題示例,例如“描述一下這個(gè)場(chǎng)景”、“這是什么東西”、“這張圖片描述了什么”,我們就先嘗試一下這幾個(gè)問(wèn)題。
輸入一只正在聽(tīng)歌的小貓,讓VisualGLM-6B描述一下表情包中的場(chǎng)景:
還不錯(cuò),VisualGLM-6B準(zhǔn)確get了小貓享受音樂(lè)或使用電子設(shè)備這個(gè)過(guò)程!
再輸入一個(gè)章魚(yú)哥表情包,問(wèn)它“這是什么東西”:
也沒(méi)問(wèn)題。看起來(lái)能拿給爸媽用了(手動(dòng)狗頭)。
再試試用吃飯小狗,讓VisualGLM-6B解讀一下這張圖片描述了什么:
看起來(lái)初級(jí)表情包都沒(méi)什么問(wèn)題,是時(shí)候加大力度了。
上傳一個(gè)gif試試?*眼似乎沒(méi)有問(wèn)題:
但再換一個(gè)gif試試就會(huì)發(fā)現(xiàn),它似乎只理解了*幀圖像,猜測(cè)是不是“主角在試圖抓住或捕捉它”,但實(shí)際上只是在扔鈔票:
與之前的一些圖片理解AI不同,VisualGLM-6B在解讀時(shí)會(huì)著重介紹表情包角色中的面部表情,例如“它看起來(lái)不舒服或者緊張”:
BUT!當(dāng)我們?cè)偕弦稽c(diǎn)難度,給表情包配上文字之后,它就無(wú)法理解表情包的含義了:
尤其是這種靠配文傳達(dá)表情包精髓的,VisualGLM-6B就會(huì)開(kāi)始展現(xiàn)“瞎解讀”的功底:
如果圖像拼接太多,它還會(huì)出現(xiàn)奇怪的bug,例如把摸魚(yú)狗頭人認(rèn)成大鯊魚(yú):
而且,它在描述表情包的時(shí)候整體比較正經(jīng),不會(huì)解讀圖像以外的“用意”。
例如,有網(wǎng)友測(cè)試了一下經(jīng)典的“熊貓人顯卡”表情包:
以及周星馳的經(jīng)典“我全都要”表情包:
顯然VisualGLM-6B能大致理解圖片的場(chǎng)景,但對(duì)于表情包的配文就無(wú)法理解了。
總結(jié)一下,對(duì)于包含經(jīng)典作品角色的表情包,或是經(jīng)過(guò)文字加工前的“原始”表情包,VisualGLM-6B能說(shuō)出這個(gè)角色的名字,或是描述出其中的場(chǎng)景:
雖然也可以讓它描述情緒,不過(guò)AI看出來(lái)的情緒,可能和最終表情包表達(dá)的情緒不太一樣:
但一旦表情包加上了文字、或是被P進(jìn)了新場(chǎng)景,VisualGLM-6B就會(huì)因?yàn)闊o(wú)法解讀圖片中文字的意思,而變得“看不懂?!绷?。
那么,擁有一部分解讀表情包能力的VisualGLM-6B,究竟是什么來(lái)頭?
多模態(tài)對(duì)話VisualGLM-6B,*只需8.7G顯存
事實(shí)上,VisualGLM-6B并非專門為“表情包解讀”而開(kāi)發(fā)。
它是由智譜AI和清華大學(xué)KEG實(shí)驗(yàn)室打造的開(kāi)源多模態(tài)對(duì)話模型,主要用于中文圖像理解,解讀表情包可以說(shuō)只是它被開(kāi)發(fā)出來(lái)的一個(gè)“副業(yè)”。
它的正經(jīng)用法,一般是醬嬸的:
提起這個(gè)團(tuán)隊(duì),大家更熟悉的可能是ChatGLM-6B大模型。
后者此前我們有作介紹:
它是“清華系ChatGPT”的一員,2022年8月發(fā)布,共62億規(guī)模參數(shù),支持中英雙語(yǔ)對(duì)話。
上線4天就突破6k star,目前已經(jīng)近25k。
據(jù)介紹,VisualGLM-6B正是在ChatGLM-6B的基礎(chǔ)上完成:
ChatGLM-6B負(fù)責(zé)它的語(yǔ)言模型部分,圖像部分則通過(guò)訓(xùn)練BLIP2-Qformer構(gòu)建起視覺(jué)模型與語(yǔ)言模型的“橋梁”。
因此,VisualGLM-6B整體模型共78億參數(shù)。
具體而言,VisualGLM-6B的預(yù)訓(xùn)練在中英文權(quán)重相同的情況下,在30M高質(zhì)量中文圖文對(duì)和300M經(jīng)過(guò)篩選的英文圖文對(duì)上完成(來(lái)自CogView數(shù)據(jù)集)。
這一訓(xùn)練方法可以將視覺(jué)信息對(duì)齊到ChatGLM的語(yǔ)義空間。
微調(diào)階段,VisualGLM-6B又在長(zhǎng)視覺(jué)問(wèn)答數(shù)據(jù)上訓(xùn)練,以生成符合人類偏好的答案。
與此同時(shí),VisualGLM-6B由SwissArmyTransformer (簡(jiǎn)稱“sat” ) 庫(kù)訓(xùn)練,這是一個(gè)支持Transformer靈活修改、訓(xùn)練的工具庫(kù),支持Lora、P-tuning等參數(shù)高效微調(diào)方法。
最終,本項(xiàng)目既提供了HuggingFace接口,也提供了基于sat的接口。
要說(shuō)VisualGLM-6B*的特點(diǎn),便是結(jié)合模型量化技術(shù),可以讓大家在消費(fèi)級(jí)的顯卡上進(jìn)行本地部署,INT4量化級(jí)別下*只需8.7G顯存。
具體包含三種部署工具:
一是命令行Demo。執(zhí)行命令:python cli_demo.py
然后程序便自動(dòng)下載sat模型,大家就可以在命令行中進(jìn)行交互式的對(duì)話了。
輸入指示并回車即可生成回復(fù),輸入clear可以清空對(duì)話歷史,輸入stop終止程序。
二是基于Gradio的網(wǎng)頁(yè)版Demo。
需要先安裝Gradio:pip install gradio,然后下載并進(jìn)入本倉(cāng)庫(kù)運(yùn)行web_demo.py,最后在瀏覽器中打開(kāi)系統(tǒng)輸出的地址即可使用。
三是API部署。需要安裝額外的依賴:pip install fastapi uvicorn,然后運(yùn)行倉(cāng)庫(kù)中的api.py。
更多細(xì)節(jié)和推理、量化部分的方法就不贅述了,可戳參考鏈接[1]查看官方介紹。
需要注意的是,如官方所述,VisualGLM-6B正處于V1版本,視覺(jué)和語(yǔ)言模型的參數(shù)、計(jì)算量都較小,因此會(huì)出現(xiàn)相當(dāng)多的已知局限性,像圖像描述事實(shí)性/模型幻覺(jué)問(wèn)題、圖像細(xì)節(jié)信息捕捉不足,以及一些來(lái)自語(yǔ)言模型的局限性等等。
就如下面這張測(cè)試,VisualGLM-6B描述得還挺到位的,能看出是阿根廷和世界杯,但別被蒙了:圖上并沒(méi)有阿圭羅和迪馬利亞這兩位球星。
因此,官方也稱將在后續(xù)繼續(xù)針對(duì)以上問(wèn)題進(jìn)行一一改進(jìn)。
不過(guò),擁有圖片解讀能力的大模型,也并不只有VisualGLM-6B一個(gè)。
目前來(lái)看,表現(xiàn)比較好的“表情包殺手”還是GPT-4,從網(wǎng)友測(cè)試來(lái)看,它已經(jīng)能根據(jù)表情包中的文字解讀meme:
開(kāi)源大模型方面,基于Vicuna-13B開(kāi)發(fā)的MiniGPT-4也能解讀圖片,同樣只需要一張單卡RTX3090就能搞定:
不過(guò)在這批大模型中,VisualGLM-6B強(qiáng)調(diào)的則是“中文開(kāi)源”特點(diǎn),換而言之,它在中文描述上可能會(huì)比其他大模型更準(zhǔn)確一些。
你試玩過(guò)這些“表情包解讀AI”了嗎?感覺(jué)誰(shuí)更能get人類思想精華?(手動(dòng)狗頭)
參考鏈接:[1]https://mp.weixin.qq.com/s/SzS6Gx8ZjtBXXQ7cs8-zLQ[2]https://twitter.com/thukeg/status/1659079789599248386
關(guān)鍵詞:
什么,最懂表情包的中文開(kāi)源大模型出現(xiàn)了??!就在最近,來(lái)自清華的一個(gè)叫VisualGLM-6B的大模型在網(wǎng)上傳開(kāi)
微信公眾號(hào):量子位 2023-05-22中新社倫敦5月21日電 當(dāng)?shù)貢r(shí)間5月21日,中國(guó)駐英國(guó)使館發(fā)言人就英國(guó)首相蘇納克涉華錯(cuò)誤言論答記者問(wèn)。有記
中國(guó)新聞網(wǎng) 2023-05-221、如果你的BACKSPACE鍵失靈了,就用CTRL+Z,功能是一樣的,如果你的ENTER鍵失靈了,就用ALT+S,功能也是一樣的
互聯(lián)網(wǎng) 2023-05-22我國(guó)南海發(fā)現(xiàn)兩處古代沉船成堆瓷器和原木碼放整齊
新京報(bào) 2023-05-22作者 儒風(fēng)君圖 來(lái)源網(wǎng)絡(luò)來(lái)源:儒風(fēng)大家(ID:rufengdajia)《增廣賢文》有云:“人為財(cái)死,鳥(niǎo)為食亡。”人
國(guó)學(xué)文化堂 2023-05-221、原因如下:因?yàn)槌叽a不合適導(dǎo)致空杯。2、尺碼過(guò)大會(huì)造成空杯,過(guò)小會(huì)造成壓胸。3、當(dāng)你的胸介于A杯和B杯
互聯(lián)網(wǎng) 2023-05-21川投能源(600674)5月21日晚間披露,2023年1-4月,公司實(shí)現(xiàn)營(yíng)業(yè)總收入3 12億元,同比
水晶球財(cái)經(jīng)網(wǎng) 2023-05-21什么,最懂表情包的中文開(kāi)源大模型出現(xiàn)了??!就在最近,來(lái)自清華的一個(gè)叫VisualGLM-6B的大模型在網(wǎng)上傳開(kāi)
微信公眾號(hào):量子位 2023-05-22中新社倫敦5月21日電 當(dāng)?shù)貢r(shí)間5月21日,中國(guó)駐英國(guó)使館發(fā)言人就英國(guó)首相蘇納克涉華錯(cuò)誤言論答記者問(wèn)。有記
中國(guó)新聞網(wǎng) 2023-05-221、如果你的BACKSPACE鍵失靈了,就用CTRL+Z,功能是一樣的,如果你的ENTER鍵失靈了,就用ALT+S,功能也是一樣的
互聯(lián)網(wǎng) 2023-05-22我國(guó)南海發(fā)現(xiàn)兩處古代沉船成堆瓷器和原木碼放整齊
新京報(bào) 2023-05-22作者 儒風(fēng)君圖 來(lái)源網(wǎng)絡(luò)來(lái)源:儒風(fēng)大家(ID:rufengdajia)《增廣賢文》有云:“人為財(cái)死,鳥(niǎo)為食亡。”人
國(guó)學(xué)文化堂 2023-05-221、原因如下:因?yàn)槌叽a不合適導(dǎo)致空杯。2、尺碼過(guò)大會(huì)造成空杯,過(guò)小會(huì)造成壓胸。3、當(dāng)你的胸介于A杯和B杯
互聯(lián)網(wǎng) 2023-05-21川投能源(600674)5月21日晚間披露,2023年1-4月,公司實(shí)現(xiàn)營(yíng)業(yè)總收入3 12億元,同比
水晶球財(cái)經(jīng)網(wǎng) 2023-05-21大連將30個(gè)中風(fēng)險(xiǎn)地區(qū)調(diào)整為低風(fēng)險(xiǎn)地區(qū) ...
中新網(wǎng)成都11月22日電 (記者 劉忠俊)四...
(北京冬奧會(huì))北京規(guī)劃超270公里冬奧道路網(wǎng)...
中新網(wǎng)杭州11月22日電(郭其鈺 張益聰)“...
中新網(wǎng)北京11月22日電 (記者 杜燕)今天...
利揚(yáng)芯片: 第三屆董事會(huì)第十七次會(huì)議決議公告
力合科創(chuàng)董秘回復(fù):力合云記的自消殺抗病毒功能材料目前有“水性自消殺成膜劑”和“自消殺抗病毒薄膜”兩類產(chǎn)品 每日信息
山西長(zhǎng)子“羊倌”養(yǎng)羊20余年 帶動(dòng)700余戶養(yǎng)殖戶發(fā)“羊財(cái)”
上海首個(gè)“兩山”實(shí)踐創(chuàng)新基地成功創(chuàng)建
廣西醫(yī)科大一附院向越南捐贈(zèng)醫(yī)療防疫物資
Copyright 2015-2023 今日倉(cāng)儲(chǔ)網(wǎng)版權(quán)所有 備案號(hào):滬ICP備2023005074號(hào)-40 聯(lián)系郵箱:5 85 59 73 @qq.com