【中文科技資訊】12月14日消息,南京農業大學信息管理學院王東波教授領導的研究團隊日前在北京發布了一款名為“荀子”的古籍大語言模型。
這一名為“荀子”的大模型集結了《四庫全書》等眾多傳世古籍文獻,擁有超過20億字的龐大語料庫。據了解,這一大型語言模型是南京農業大學團隊在國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”的支持下,與中華書局古聯公司聯手推出的智能工具,專門用于古籍處理與研究。

南京農業大學表示,這一模型具備多項引人注目的特點:
1. 智能標引:能夠高質量地對古籍內容進行主題標引,為研究人員提供了快速了解文章主題的工具;
2. 信息抽取:能夠自動從古籍中提取關鍵信息,包括人物、事件、地點等,極大地節省了信息整理的時間;
3. 詩歌生成:可以根據給定的主題或關鍵詞,自動生成符合語法規則和韻律要求的古詩,為詩詞愛好者提供了創作靈感;
4. 高質量翻譯:對于難以理解的古籍文獻,能夠進行精準的現代文翻譯,協助研究人員更好地理解原文內涵;
5. 閱讀理解:具備對給定的古文文本進行分析和解釋的能力,實現了對古籍文本的自動閱讀;
6. 詞法分析:可以自動完成古籍文本的分詞和詞性標注,顯著提高了研究效率;
7. 自動標點:能夠迅速對古籍文本進行斷句和標點,提升了用戶對古籍文本的閱讀體驗。
這一模型包含兩個部分,基座模型XunziALLM和對話模型XunziChat。此外,用戶還可以根據自身需求使用本地訓練語料微調基座模型,以獲得更出色的古籍處理性能。
目前,這一模型已經作為開源公益研究成果發布在GitHub等網站上。












