中新社(shè)北京5月18日電 (記者(zhě) 孫自法)中國海外(wài)古籍(jí)“數字(zì)化回歸”項(xiàng)目“漢典重光”平台(tái)18日下午在北(běi)京中國科技館正式發布,通過先進的人工智能(AI)技(jì)術,一批珍(zhēn)藏于美國加州大學伯克利分(fèn)校的中文古籍善本,以數字化(huà)方式(shì)回歸故土,落地“漢(hàn)典重光(guāng)”古籍平台。
“漢典重光”平台稱,首(shǒu)批20萬頁古籍已(yǐ)完成數(shù)字化,并沉(chén)澱為覆蓋3萬(wàn)多字(zì)的古籍字(zì)典,公衆(zhōng)可通過該平台(tái)翻(fān)閱、檢(jiǎn)索古籍,這(zhè)20萬頁古籍的識别準(zhǔn)确率達到97.5%。
“漢典重光”項目(mù)由阿裡巴巴公(gōng)益基(jī)金會、四川大學、美國加州大學(xué)伯克利分校、中國國家圖書館(guǎn)、浙江圖書館合作開展,旨在尋覓流散海外的中國古(gǔ)籍并将其數字化(huà)、公共(gòng)化(huà),讓普通人也能親近古籍,通過古籍與先賢對(duì)話,與優秀傳統文化對話。
2019年,阿裡巴巴和四川大學提(tí)出“數(shù)字化回歸”設想,獲得中(zhōng)文藏書量排名全美第(dì)三的加州(zhōu)大學伯(bó)克利分校支(zhī)持并達成共識(shí),将伯克利(lì)東亞(yà)圖書館的中(zhōng)文古籍善本逐步(bù)數字化。
本次首(shǒu)批數字(zì)化的20萬(wàn)頁古籍中,包含40餘種珍貴宋元刻本(běn)、寫本;明清至民(mín)國時期*學(xué)者錢謙益、翁方(fāng)綱、王韬的抄本(běn)、稿本;*藏書樓嘉業堂、密韻樓(lóu)的抄本,還有(yǒu)清文瀾閣《四庫全書(shū)》零本等。
為将伯克利提供(gòng)古籍的掃描圖片和編目數據全部文字化(huà),阿裡巴巴達摩院技術團隊與四川大學*聯手研發(fā)出一套全新的古(gǔ)籍識别系統,以97.5%的準确率完成對20萬(wàn)頁古籍的整體識别。目前,該系統已能批量識(shí)别百本(běn)古籍,并沉澱覆蓋3萬多字的古籍字(zì)典。
比起*錄入(rù),這套(tào)人機交互的識别系統将效率提升近30倍。随着古籍(jí)識别規模的擴(kuò)增,機器還會自我進化(huà),不斷提升準确率和效率。阿裡巴巴(bā)達(dá)摩院院長張建鋒表示,阿裡計劃将(jiāng)這套技術工具(jù)連同古籍數字化平台一并捐(juān)贈,交由權威公共機構長期運營,同時,阿裡仍(réng)将在古籍數字(zì)化工作上持續(xù)投入人(rén)力物力。
據了解,因邦交、貿易、戰亂等,曆(lì)史上中國古籍時有(yǒu)出海,近(jìn)代以來,戰争和動蕩更加劇(jù)了古(gǔ)籍的損毀和流散。據(jù)不(bú)完全估計,散居海(hǎi)外的中國(guó)古籍超過40萬部、400萬冊(cè),包括甲骨簡牍、敦煌遺書、宋元善本(běn)、明清精椠、拓本輿圖、少數民族文獻(xiàn)等。(完)
本(běn)文轉載自中國新聞網,内容均來自(zì)于互(hù)聯網,不代表本(běn)站(zhàn)觀點,内容版權歸屬原作者及站點所有,如有(yǒu)對您造成影響,請及時(shí)聯系我們予(yǔ)以删除!