日韩一区二区三区在线免费观看-开心久久婷婷综合中文字幕-欧美激情91-久久国产福利-欧美日韩日本国产亚洲在线-国产精品极品国产中出

首頁 > 新聞 > 智能 > 正文

AI 大模型的語言不平等:英語訓練費用最便宜,漢語訓練費用是英語的 2 倍

2023-08-01 21:16:33來源:ZAKER科技  

近日,X(原 Twitter)用戶 @Dylan Patel 展示了一份來自牛津大學的研究:通過對 GPT-4 和大多數其他常見 LLM 的語言進行研究,研究發現 LLM(大語言模型)推理的成本差異很大。

其中英語輸入和輸出要比其他語言便宜得多,簡體中文的成本大約是英語的 2 倍,西班牙語的成本是英語的 1.5 倍,而緬甸撣語則是英語的 15 倍。


(資料圖片僅供參考)

究其原理,可以追溯到今年 5 月份牛津大學在 arXiv 上刊印的一篇的論文。

詞元是將自然語言文本轉換成詞元(token)序列的過程,是語言模型處理文本的第一步。在 LLM 計算力成本的核算中,詞元越多,耗費計算力的成本越高。

毫無疑問,在生成式 AI 商業化的趨勢下,計算力的耗費成本也會嫁接給用戶,當下許多 AI 服務也正是按照需要處理的詞元數量來計費。

論文顯示,研究者通過分析 17 種詞元化方法后,發現同一文本被轉換成不同語言詞元序列時長度差異巨大,即使是宣稱支持多語言的詞元化方法,也無法做到詞元序列長度完全公平。

例如,根據 OpenAI 的 GPT3 tokenizer,倘若給「你的愛意」詞元化,英語只需兩個詞元,而在簡體中文中則需要八個詞元。即使簡體中文文本只有 4 個字符,而英文文本有 14 個字符。

從 X 用戶 @Dylan Patel 曝光的圖片也可以直觀看到,讓 LLM 處理一句英語需要 17 個詞元(tokens),而讓 LLM 處理同樣意思的一句緬語,則需要 198 個詞元(tokens)。這意味著緬語的處理成本將達到英語的 11 倍。

類似的情況也有很多,Aleksandar Petrov 的網站中提供了許多相關的圖標和數據,感興趣的朋友不妨點擊「https://aleksandarpetrov.github.io/tokenization-fairness/」進去查看語言之間的差異。

在 OpenAI 的官網上也有著類似的頁面,解釋了 API 是如何對一段文本進行詞元化,以及顯示該文本的詞元總數。官網也提到,一個詞元通常對應英語文本的約 4 個字符,100 個詞元約等于 75 個單詞。

得益于英語詞元序列長度短的優勢,在生成式人工智能預訓練的成本效益方面,英語可謂是最大贏家,將其他語言使用者遠遠地甩在身后,間接產生了一種不公平的局面。

除此之外,這種詞元序列長度的差異也會導致處理延遲不公平(某些語言處理同樣內容需要更多時間)和長序列依賴性建模不公平(部分語言只能處理更短的文本)。

簡單點理解,就是某些語言的用戶需要支付更高的成本,承受更大的延遲,獲得更差的性能,從而降低了他們公平地訪問語言技術的機會,也就間接導致了英語使用者和世界其他語言使用之間形成了 AI 鴻溝。

僅從輸出的成本來看,簡體中文的成本是英語的兩倍。伴隨著 AI 領域的深層次發展,總是「差一步」的簡體中文顯然并不友好。在成本等各方面疊加因素的權衡下,非英語母語的國家也紛紛嘗試開發自己的母語語言大模型。

以中國為例,作為國內最早一批探索 AI 的巨頭,2023 年 3 月 20 日,百度正式上線生成式 AI 文心一言。

隨后阿里巴巴的通義千問大模型、華為的盤古大模型等一批批優秀大模型也陸續涌現出來。

在這當中,華為盤古大模型中的 NLP 大模型更是行業內首個千億參數中文大模型,擁有 1100 億密集參數,經過 40TB 的海量數據訓練而成。

正如聯合國常務副秘書長阿米娜 · 穆罕默德曾經在聯合國大會上警告說,如果國際社會不采取果斷行動,數字鴻溝將成為「不平等的新面孔」。

同理,伴隨著生成式 AI 的狂飆突進,AI 鴻溝也很有可能成為新一輪值得關注的「不平等的新面孔」。

所幸的是,平時「慘遭嫌棄」的國內的科技巨頭已然采取了行動。

關鍵詞:

責任編輯:hnmd003

相關閱讀

相關閱讀

推薦閱讀

日韩在线一二三区| 好看的日韩av电影| 亚洲图区在线| 欧美日韩色图| 国产精品专区免费| 亚洲天天影视网| 精品国产91乱码一区二区三区四区 | 国产精品国产三级国产在线观看| 三级成人在线视频| 国产 日韩 欧美 综合 一区| 亚洲经典在线看| 国产欧美自拍| 香港久久久电影| 视频在线观看一区二区三区| 日韩和欧美一区二区三区| 91在线一区| 伊人久久综合一区二区| 国产欧美日韩精品一区二区三区| 欧美中文字幕一区二区| 亚洲精品成a人ⅴ香蕉片| 日日夜夜精品视频| 日韩av专区| 少妇一区二区视频| 一本色道久久综合| 日本视频一区二区三区| 99热国内精品永久免费观看| 亚洲精品一区三区三区在线观看| 欧美2区3区4区| 涩涩av在线| 在线观看视频一区二区三区| 欧美wwwww| 日韩在线亚洲| 免费高潮视频95在线观看网站| 日韩av三区| 免费观看成人av| 亚洲人亚洲人色久| 日韩精品一区第一页| 欧美激情三级| 亚洲欧美日韩在线观看a三区| 久久久免费毛片| 亚洲一区二区网站| 久久99国产成人小视频| 丝袜脚交一区二区| 日韩三区视频| 蜜桃av在线播放| 神马午夜久久| 日韩专区中文字幕一区二区| 欧美久久综合网| 亚洲精品无播放器在线播放| 午夜在线视频观看日韩17c| 国产欧美日韩免费观看| 国产精品久久占久久| 久久伊人久久| 成人h在线观看| 婷婷综合亚洲| 日本欧美高清| 国产一区二区三区朝在线观看| 欧洲亚洲一区二区三区| 欧美在线三区| 一本久道久久综合婷婷鲸鱼| 成人亚洲欧美| 日韩精品免费观看视频| 美女视频免费精品| 麻豆精品精品国产自在97香蕉 | 亚洲小说图片视频| 免费看av不卡| 国产在线成人| 亚洲色图丝袜| 高清在线一区| 国产农村妇女精品一二区| 日韩福利电影在线观看| 成人在线视频免费| 99在线精品免费视频九九视 | 亚洲美女一区| 日韩精品视频中文字幕| 99精品国产在热久久婷婷| 夜夜精品视频| 精品久久国产| 国产精品欧美日韩一区| 日韩精选视频| 欧美资源在线| 香蕉人人精品| 日韩电影免费一区| 国产精品久久久久久模特| 蜜臀精品久久久久久蜜臀| 久久国产主播| 日韩高清影视在线观看| 日日骚欧美日韩| 国产欧美一区二区三区精品酒店| 亚洲网站在线| 亚洲开心激情| 国产一区二区三区天码| 美日韩一区二区三区| 日韩成人精品一区| 欧美日韩三区| 久久免费国产| 麻豆国产精品| 国产精品久一| 在线看片欧美| 午夜在线一区| 国产精品15p| 日韩av成人高清| 久久久久观看| 成人日韩av| 蜜臀av一区二区三区| 欧美不卡在线| 久久精品99久久无色码中文字幕| 精品国产亚洲日本| 国产在视频线精品视频www666| 久久精品国产精品亚洲综合| av在线视屏| 日本一区二区三区视频| 在线亚洲免费| 影音先锋久久| 图片小说视频色综合| 99久久这里只有精品| 国产毛片久久久| 日韩理论电影中文字幕| 国模精品一区| 国产精品一区二区三区av麻| 伊人国产精品| 在线观看欧美| 欧美成人精品午夜一区二区 | 亚洲ww精品| 成人亚洲网站| 成人国产精品一区二区免费麻豆| 日韩中文影院| 日韩欧美一区二区三区在线视频| 激情国产在线| 日韩伦理在线一区| 蜜桃av在线播放| 日本国产亚洲| 成人交换视频| 久久精品国产免费| 日本在线不卡视频| 亚洲精品韩国| 中文无码久久精品| 国产精品一国产精品| 西瓜成人精品人成网站| 视频精品二区| 精品久久久久久久| 亚洲福利国产| 亚洲一级在线| jizzjizz中国精品麻豆| 日韩免费视频| 欧美特黄一区| 国内精品嫩模av私拍在线观看| 亚洲伦伦在线| 亚洲欧美在线综合| 日韩伦理一区二区三区| 动漫视频在线一区| 欧美先锋资源| 亚洲激情不卡| 免费观看30秒视频久久| 日韩国产一区二区| 国产精品尤物| 欧美三级一区| 成午夜精品一区二区三区软件| 久久精品国产亚洲5555| 天天精品视频| 蜜臀va亚洲va欧美va天堂| 日韩国产一区二区三区| 日日欢夜夜爽一区| 亚洲理论电影片| 精品大片一区二区| 在线看片不卡| 91视频综合| 久久一区二区三区四区五区| 亚洲精品456| 久久高清免费| 日本欧洲一区二区| 亚洲tv在线| 亚欧洲精品视频在线观看| 精品视频亚洲| 午夜一区不卡| 一区二区三区成人精品| 日本一区福利在线| 亚洲第一精品影视| 成人激情免费视频| 99精品国产福利在线观看免费 | 第四色在线一区二区| 红桃视频国产一区| 蜜桃av在线播放| 国产精品成人**免费视频| 精品国产一区二区三区av片| 久热国产精品| 欧美成人毛片| 视频精品一区二区三区| 一本色道久久综合亚洲精品高清 | 国产精品免费99久久久| 欧美自拍一区| 色婷婷色综合| 欧美日韩一卡| 色婷婷综合网| 三级一区在线视频先锋| 九九久久国产| 日韩欧美一级| 国产视频久久| 三级久久三级久久久| 草莓视频一区二区三区|