台版ChatGPT繁體中文資料的法規調適方向
[前言]
今年3月20日立法委員葛如鈞等多人在立法院教育及文化委員會質詢時不約而同地表示,由於訓練AI(人工智慧)用的繁體中文資料不足,恐怕會影響台灣文化發展,就此中央研究院應協助整合大量的繁中文本資料以訓練台灣版LLM(大型語言模型)。葛委員並指出,日本政府近來採取大膽作法,允許AI使用任何資料,不做保護,藉此儘可能提高日文資料數量,質詢中研院長廖俊智台灣是否適合比照?廖俊智回答日本的做法相當前瞻,台灣需要先深入研究利弊得失,擷取優點後再因地制宜。
中研院正在思考盡量立即開放「不涉及著作權」的相關資料,未來也希望會努力排除「法規的限制」,開放資料給LLM訓練。此也顯現出台灣應修法促進資料治理,排除台版ChatGPT上路的障礙,以提升台灣在國際的競爭力及話語權。問題就在於:在全世界整個AI浪潮下,我們的法規應如何調適,即:涉及在《人工智慧基本法》草案或《著作權法》等層面,應透過怎樣的立法或修法方式才可達到如同《著作權法》第一條規定所謂「保障著作人著作權益,調和社會公共利益,促進國家文化發展」之目的,這就是本文的發想,並提出一些淺見參考。
[台版ChatGPT繁體中文資料的重要性與法律問題]
在2023年4月ChatGPT轟動全世界後,國科會啟動打造「可信任生成式AI對話引擎」(TAIDE),其以Meta發布的開源模型Llama為訓練基底,再透過繁中資料進行微調(fine-tuning),可執行中文對答、文章摘要、中英翻譯等任務。國際AI專家吳恩達曾接受《遠見》雜誌獨家專訪時表示,TAIDE的發展有助於台灣文化價值在全球的能見度,且擁有一個能反映台灣價值觀及對民主信念的模型非常重要。
前Google台灣總經理簡立峰曾比喻,「讓模型多讀一點中文書」,也凸顯出除了算力不夠外,資料太少、著作權的障礙,都是台灣發展本土化LLM的巨大挑戰。因此,簡立峰向政府喊話,「你認為要保有文化、歷史和價值觀,就應該要把資料拿出來」,意思是應處理LLM訓練資料的著作權問題。這正是為什麼AI需要更多的臺灣中文資料。如果資料不足,或僅有部分少數資料,將影響模型的表現及學習效果。換言之,面對資訊數位化的AI時代,蒐集及利用資料而形成有用資訊,極度仰賴數據之集結與處理,如資料不全情況下,恐妨礙大數據之完整性,不利於AI發揮其自主訓練及深度學習的功能。
關於台版ChatGPT繁體中文資料,具體來說有三點重要性:
語言和文化的差異:生成式AI的訓練數據通常來自特定的語言和文化背景,這可能會影響其生成內容的風格和觀點;一個生成式AI主要使用英文數據進行訓練,那它可能無法精準地理解和生成其他語言或文化的內容。例如向AI詢問「民主」,使用中文與英文,所得到的答案可能會不太一樣。這就是為何台灣要發展自己的生成式AI對話引擎「TAIDE」,使用繁體中文作為訓練語料,融入台灣特有的語言、價值觀、風俗習慣等元素。
民主的挑戰:生成式AI可能會受到訓練數據中存在的偏見和不平等的影響。如果訓練數據中存在性別、種族、社會偏見等問題,生成的結果可能會反映這些偏見,進而加劇社會不平等;甚至也可能被有心人士利用,對民主體制形成重大干擾。
資源的控制:目前最先進的生成式AI工具往往由單一企業訓練,再提供給全球使用。然而,各地文化與價值觀不同,對事物的詮釋往往差異甚鉅。單一來源的模型,不但容易偏頗特定族群,也難以適應世界的多元樣貌。例如請AI衡量相關的立法是否能夠因應AI發展的潛在風險,它提供的內容卻往往過度樂觀,因爲此與AI系統本身相關,且它被業者或使用者調教、餵食過資料,容易傾向避開不利於AI的答案、避重就輕或大多強調AI發展的可控性。
首先要面臨的問題是:為增加AI訓練的資料來源,政府或企業將蒐集資料投向資料庫裡的行為,合法嗎?我國經濟部智慧財產局曾對此行為作出函釋(經授智字第11252800520號):「在蒐集資料訓練AI模型階段,訓練資料如受著作權法保護(下稱原始著作),會涉及『重製』原始著作之行為,除有著作權法第44條至第65條合理使用之情形外,應取得著作財產權人之同意或授權,始得為之。」 多數國家、美國與歐盟的《著作權法》規範,也類似我國的規定,即:AI模型訓練未經著作財產權人同意或授權,使用受著作權法保護的資料,就可能涉及非法重製。至於是否符合「合理使用」(fair use)原則,目前國際上尚未定論。
[台灣對於AI戰略的法規調適方向?]
然而台灣就自己的LLM所需繁體中文資料,在初步的方向應從如何著手開放資料的取得,是否從政府既有的出版品做微調開放?或是就相關的文化內容得以「獲取授權的方法」開放?還是如同日本的做法全面開放資料供AI訓練呢?
律師侯宜秀認為台灣其實有很多繁體中文資料,可以利用過去長期累積下來的數位化、數位典藏、開放資料等,朝「涵容」(寬容)的方向去訓練台灣自己的語言模型或GPT,並且注入台灣的價值,包含自己所有的國家語言文化,例如阿美語、泰雅語、排灣語等等,不僅師出有名且合理,更能彰顯台灣與其他國家的差異,也對世界會是一個很好的示範。
觀諸台灣的《著作權法》第44、45、48、48-1、64、65條等規定限制可知,不論是政府出版品、文化內容授權,或資料的全面開放,均面臨不可行的困境及其需要調適之狀況,也就是使用或重製他人的著作,必須在「合理範圍內」或諸多限定情形,以符合「合理使用原則」。
例如建置AI資料庫的訓練,需要大量的全文資料,若依照目前上述的著作權法相關規定,即使向中央的文化部、國家圖書館、國立台灣文學館、故宮,或是地方政府等機關尋求「資料」,頂多也只能取得這些政府出版物或文化內容的少量「資訊」或「摘要」,必須另外且個別找到機構的代表窗口,以取得授權部分、全部或全文的著作與資料。
一、日本《著作權法》對於AI的戰略方向與問題
葛委員提到「日本允許AI使用任何資料,藉此儘可能提高日文資料數量」,我就想起我以前碩士論文–《人工智慧著作權法及管理規範之研究》也有稍微提及日本《著作權法》在2019年針對AI使用著作資料的修法內容。日本就AI策略方向的制定與運作,是從國家甚至國際高度去做思考,即使目前仍在擬定其AI白皮書做為指導原則,但早就2019年就已修改《著作權法》去促進及鼓勵AI尤其是LLM的發展。
參照蔡明誠教授在2024年1月的文獻《論人工智慧時代著作權法結合著作與其他著作類型之概念及利用》(刊登於《月旦法學雜誌》第344期)第18、19頁處的介紹,有明確點出日本《著作權法》將AI訓練資料的過程分成兩階段來評價,即:著作或數據資料在「AI模型訓練(LLM的開發)」的階段,不損害著作權人的利益;後續「LLM生成出作品」的階段,就還是可能侵害到原作的著作權,也就是生成品的外觀或表達形式是否「實質近似」原作而有俗稱「抄襲」的法律問題。
其實我國沒有必要完全仿效日本《著作權法》的制度。因爲:
日本為迎頭趕上美國等先進國家的發展,採取比較寬鬆的制度,卻是以犧牲創作者為代價,將大舉降低創作者的創作誘因,也對現存的著作權造成衝擊。
日本國內已有出現反對看法與聲音,且該規定還有許多模糊空間或不確定的法律概念(例如「輕微」),致使創作者更加擔心生成式AI對其作品的不當利用,另方面也凸顯利用生成式AI進行創作的作品可能面臨侵權訴訟問題。
最嚴重的是,日本現在對於生成式AI的立場恐將嚴重衝擊整個動漫相關產業工作生態,其《著作權法》第30之4條規定不僅無法保障創作者的內容與權益,甚至對於內容創作者的工作會有很負面的影響,例如創作者不再創作內容,長期下來,可能也無法達到促進國家文化的整體發展。
目前生成式AI發展正處於方興未艾的時期,雖已產生不少風險的疑慮及訴訟官司,但如能兼顧資訊安全與權益的衡平,應給予較大自由的發展空間。雖然日本著作權法帶來一些啟發,但蔡明誠教授也建議《著作權法》可採取所謂的「自由但規制」(Freedom but Regulation)原則,即:原則上給予從巨量資料中學習的較大學習空間,例外才加以規制。
就這個修法方向而言,台灣就「自己LLM學習及訓練上所需繁體中文資料」的階段,應能從政府既有或未來的出版品及文化內容做全面開放,將這些資料列入機器學習的範疇。
二、授權
隨著AI模型的發展「訓練數據」變成新興市場,科技巨頭公司與數據供應方紛紛簽訂相關的「資料授權」協議或契約。換言之,目前在美國已經掀起一波尋找著作權人的熱潮,甚至依照Business Research Insights等研究機構估算「AI數據市場」規模目前約為25億美元,預測十年內可能成長至300億美元。
例如美國論壇Reddit同意授權平台內容給Google公司;Shutterstock、Freepik與,Defined.ai也分別與Meta、Google、Amazon、Apple等科技巨頭達成授權圖像資料的協議。
OpenAI公司也與德國出版社Axel Springer、美聯社、法國世界報、西班牙Prisa Media、英國金融時報等機構,合作簽署數據授權協議,以讓AI模型可以訓練新聞內容。OpenAI之所以願意支付「使用數據資料的費用」,主要是因為目前直接擷取公開網路內容作為原始訓練數據,不僅因未經著作權人同意而容易導致訴訟糾紛,也更需要付費索取更新、更珍貴的內容(尤其是know-how),其生成式AI表現的結果才更加精準確實。
尤其在歐盟《人工智慧法》(AI Act)及美國《自動生成式人工智慧著作權揭露法》(Generative AI Copyright Disclosure Act)草案均有規定要求AI公司應將其採用訓練資料內容、來源公開透明化,也就是必須說明其資料集對於著作權內容保護的作法,以保障創作者。在這樣的監理規範浪潮下,台灣政府可能也會從善如流,透過授權的方法取得AI使用資料的內容數據,以免產生糾紛或阻礙。
就這個方法而言,台灣就自己LLM學習及訓練上所需的繁體中文資料,也只能從目前授權的方式,嘗試類似音樂著作權集管團體那樣,由統一授權窗口、收費標準及程序管道,讓政府既有或未來的出版品及文化內容可有效率且統一做授權使用。
三、微調
除了像日本那樣大破大立全面支持AI訓練可使用創作者的內容,或像美國科技公司以銀彈支付取得大量數據資料的授權外,台灣《著作權法》第44條有規定「中央或地方機關,因立法或行政目的所需,認有必要將他人著作列為內部參考資料時,在合理範圍內,得重製他人之著作。但依該著作之種類、用途及其重製物之數量、方法,有害於著作財產權人之利益者,不在此限。」似乎讓「開放資料給台灣LLM訓練」的這個難題出現一道曙光。
換句話說,在台灣對於「將他人著作即資料數據給LLM為內部訓練」之立法或行政目的,容有法規某範圍或程度的調適空間、形成自由。也就是在「合理範圍」光譜上,僅需修法微調,而不用大動干戈,就能確定可自政府既有或未來的出版品及文化內容做適當開放。
但怕修法目的恐過於薄弱,所以不只需要單一法令,或僅是「台灣AI行動計畫2.0」這樣的願景而已,更需要上位戰略思維的政策大法去指引台灣AI發展的政策方向,更加師出有名,本文認為這就是《人工智慧基本法》草案。
[建議方向–代結語]
一、台灣訂定《人工智慧基本法》草案的必要性?
「基本法」的概念是一種用於特定行政領域,如環境、教育、文化、社會福利、科學技術等等,而以「基本法」來命名的法律,用於宣示特定行政領域的基本政策或方針,它的位階仍然是法律,這種立法模式最早是來自日本。我們台灣也從善如流,自1999年制定《科學技術基本法》、《教育基本法》之後,已經陸續在各領域制定很多部基本法,已有8部基本法,而目前我們把目光移到《人工智慧基本法》草案,它之所以有訂定的必要性,就是因為AI無所不在,且有跨領域的特性。
從2018年起臺灣也將「智慧國家」列為施政目標,以半導體等科技優勢,鏈結交通、醫療、金融等產業,期許能夠躋身到尖端人工智慧國家的行列。但發展AI,雖然能為社會帶來助益,但也可能產生負面影響及風險,例如隱私侵害、偏見歧視、工作變遷、不公平競爭等。因此,在AI發展過程中,應確立價值標準及國家政策等重要事項,才可讓有利的發展盡量興盛、完善人工智慧的發展環境,且盡可能去除負面或欺詐的情況。
總結來說,由於人工智慧的發展攸關我國人權保障與相關產業發展,所以本文認為台灣有制定《人工智慧基本法》的必要性。也因此,日前吳宗憲委員與葛如鈞委員有共同提出一部《人工智慧基本法》草案,結合產官學的研究結晶,內容包括AI法律名詞定義、隱私保護、權利保障、資料治理、AI風險管控、AI倫理原則、產業推動與發展,以及AI應用的法令遵循等許多面向,希望這部草案能與大眾做更多的溝通與協調,使台灣AI高科技的發展可以呼應當前國際規範趨勢,更加搶得先機。因為人工智慧系統涉及複雜且專業的領域,且仍然在持續發展中,我們這一代人應盡的責任,就是盡可能去認識、學習甚至熟悉人工智慧的發展,參與相關立法的討論。
關於台灣制定《人工智慧基本法》在法律層面的意義:
《人工智慧基本法》(或稱AI基本法)並非作用法或組織法,而是確立人工智慧領域的原則性、政策性規定。面對人工智慧的發展,以及臺灣已具備的立法技術,自然沒有不去建構《AI基本法》的理由。而一旦完成《AI基本法》的制定,對於各領域的人工智慧發展,就能有法律上的指引及依循。人工智慧應用的面向十分廣泛,諸如智慧交通、智慧金融、智慧醫療等,所以作為原則性、政策性規定的基本法,縱使完成立法,也只是人工智慧法制建設的開端,仍應制定或修正一連串的相關法規。例如,智慧交通的部分,可能涉及道路交通管理處罰條例、公路法等,並不因基本法的制定而不用修法;但若能制定基本法,則相關的修法,就有能夠依循的價值及政策取向。
不論如何,由於各國都在研究AI的監管法制規範,尤其是歐盟AI Act已正式通過,將來都會影響到台灣相關科技企業,產生相當程度的衝擊(例如對台灣廠商而言,即使只是AI系統的應用廠商,只要歐盟使用者透過網路連線使用,仍須適用歐盟AI相關法規),所以台灣也必須有一部《AI基本法》作為因應。
綜合上面所講的,本文認為以當前臺灣人工智慧發展的情形,以及臺灣的立法技術,制定《AI基本法》,是可行且具有必要性。
二、調適《著作權法》使AI法制燦然大備
據了解,歐盟AI Act沒有直接或明確提到保障或促進文化發展的規定,但可能間接地影響到文化發展。關於未來台灣的《AI基本法》,本文建議再加入「AI之發展應保障文化之發展與保存」的方針規範,包含「開放資料」、「AI企業應繳納文化保存稅」、「國家應針對運用AI擴大文化發展與保存之相關補助及計畫」等項目,也能適當彌補著作權人的實際損失,或編列授權資料數據所需的經費,並調適《著作權法》的相關條文規範。
例如在《著作權法》明確規範:輸入端的資料引用或利用的「學習階段」,是出自於機器自動化的資料處理與利用,應給予在著作財產權更寬的豁免或合理使用的空間,以精進文化的發展。
綜上所述,台灣應先立《人工智慧基本法》、修改《著作權法》,以調適相關法規而促進資料治理,排除台版ChatGPT上路的障礙,以提升台灣在國際的競爭力及話語權,達到「保障著作人著作權益,調和社會公共利益,促進國家文化發展」之目的。
參考資料:
立委憂AI繁體中文資料少 廖俊智:能開放盡量開放 https://money.udn.com/money/story/7307/7843523
算力不夠、中文書太少,台版GPT上路最大障礙 https://www.gvm.com.tw/article/112262
AI軍備競賽來了!連「母湯」也懂,台版GPT爭國際話語權 https://www.gvm.com.tw/article/112300
為什麼臺灣一定要發展大型語言模型?專訪「生成式 AI 對話引擎 TAIDE 」核心模型訓練與 RLHF 小組召集人蔡宗翰教授 https://scitechvista.nat.gov.tw/Article/C000003/detail?ID=9f256eca-4480-44dc-a25b-94f73bf4e0cc
日本新修正著作權法鼓勵AI發展 https://ai.iias.sinica.edu.tw/jp-copyright-law-encourage-ai-dev/#%E8%A6%81%E8%81%9E%E6%B7%B1%E6%8E%A2
生成式AI TDM著作權 是否該採日本模式? https://www.chinatimes.com/newspapers/20240320000157-260209?chdtv
政府訓練台版LLM,應示範付費取得著作權 https://www.ctee.com.tw/news/20240403700050-439901
美國推《自動生成式人工智慧版權披露法案》 平衡創作保護與技術創新 https://www.cool3c.com/article/213667
AI模型「訓練」階段之資料搜集——侵害智慧財產權或合理使用? https://ai.iias.sinica.edu.tw/copyright-data-collection-during-ai-model-training/
日本政府對於生成式AI版權爭議的政策立場,加劇創作者的疑惑與不安 https://research.taicca.tw/article/09be9c08-c88e-3b14-b483-ba8221c46df1
科技巨頭紛紛簽 AI 訓練數據協議,「資料授權」這塊餅有多大? https://www.inside.com.tw/article/34687-ai-data-race
OpenAI 與《金融時報》達協議,將使用其新聞報導訓練 AI 模型 https://www.inside.com.tw/article/34889-penai-will-train-its-ai-models-on-the-financial-times
*本文亦發表於「科技立委葛如鈞.寶博士」部落格:
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!
- 来自作者
- 相关推荐