亚洲精品二区三区_91手机在线播放_91国内视频在线观看_91在线免费播放视频_国产精品九一_久久久国产亚洲精品

廊坊新闻网-主流媒体,廊坊城市门户

当古籍修复遇上人工智能

2022-04-11 09:34:54 来源:光明网-《光明日报》

光明日报记者 韩业庭

北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院联合主办的“古籍智能信息处理”系列研讨会日前在线上举办。

在研讨会上,北京大学数字人文研究中心主任王军算了一笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近38000种,照此速度,要将现存古籍全部修复整理出来,可能需要三百年的时间。不过,若利用人工智能技术辅助修复整理,大概二三十年就能完成。

王军所说的“利用人工智能技术修复古籍”,并非遥远的科学设想,它正在成为现实中的生动实践。“古籍智能信息处理”系列研讨会第一讲开讲后不久,字节跳动宣布向北大教育基金会提供捐赠,支持北京大学—字节跳动数字人文开放实验室研发“古籍数字化平台”,利用智能技术加速中华古籍资源的数字化建设,预计三年内完成10000种精选古籍的智能化修复整理。

古籍文本转化正在智能化

很长一段时间里,古籍保护主要采用原生性?;し绞?,即把古籍当作“文物”?;て鹄?。后来出现再生性?;し绞?,对古籍进行影印再造和影像保存,让古籍得以以纸本或缩微胶片的形式存在。现有的数字化古籍很多是由缩微胶片转换而成,分辨率较低且影像多为黑白色。

即便将所有古籍用数字化手段影印出版,古籍也是“死”的,人们无法方便地使用。北京大学中文系教授杨海峥举了个简单的例子——影印的古籍没有标点符号,非常不便于阅读。另外,这也不利于对古籍内容进行检索,想查阅某个内容,得逐篇逐页阅读原文,很难快速找到想要的知识。因此,要提升传统古籍的利用率,必须将古籍内容转化为数字文本。过去,这种转化主要依靠专家人工录入,时间成本极高。

“信息技术的发展,尤其是人工智能和大数据技术的出现,为古籍的修复整理带来了革命性变化?!蓖蹙?,近年来,包括北京大学在内的不少高校、科研机构在古籍数字化上开展了不少开拓性的工作,在OCR(光学字符识别)、AI句读、实体识别等方面积累了比较成熟的技术和经验。以OCR应用为例,用电子设备对纸本古籍一扫,古籍上的内容就会转录到计算机中,并生成相应的数字文档,效率比人工录入提升了不止千万倍。

据了解,利用人工智能和大数据技术,北京大学数字人文中心在从先秦到明清跨时代的大规模古籍文本语料整理上,已实现对古文本的自动句读,平均准确率达到94%,同时还实现了对人名、地名、时代名、职官名、书名的自动识别,在中古史料上的准确率接近98%。

在这些方面,字节跳动等互联网公司也有很多经验和技术积累。例如,OCR技术在今日头条、抖音等平台的图片文字识别、字幕翻译,以及商业化业务中的各类卡证票据及行业文档识别等领域均有广泛应用?!罢庑┘际蹩梢灾鸾ハ蚬偶悄苁只姆较蛏锨ㄒ?。我们在古籍数字化平台开发中,与北大在技术上能优势互补,进行有效的打通与融合。”字节跳动人工智能实验室总监李航表示。

王军介绍,“古籍数字化平台”将会进一步提升古籍整理的准确率、智能化水平和开放度。一方面,可以对重点文本进行精校,满足专家学者对资料准确度的要求;另一方面,利用智能平台上的文字识别、校对工具,学者和古籍爱好者可以在线上一站式完成古籍整理工作,而不用像以前那样先在word文档中进行整理编辑,再传递相关的文档,在提高效率的同时,也方便公众参与。

古籍利用有望智慧化

四川大学中国文化全球传播大数据中心教授王兆鹏认为,技术的进步为古籍修复整理智能化带来两个面向:一是古籍文本转化智能化,二是古籍利用智慧化。

把纸质古籍上的内容转化成数字文本,只是古籍修复整理的第一步。在此基础上,要解决的另一个问题是,如何将海量晦涩难懂的古籍内容进行整理归类,形成可交互、可触摸、可视化的数字人文作品,以方便人们查阅使用。否则,录入计算机的古籍依然会继续“沉睡”。

基于人工智能技术,目前我国已建立多个古籍整理自动化和可视化平台。比如,王军主持设计和研发的“《宋元学案》知识图谱可视化系统”,对240万字的《宋元学案》进行了文本处理和分析,将2000多位宋元理学学者、近100个学术流派所涉及的人物、时间、地点、著作等提取出来构造成知识图谱。然而,不少平台的智能化水平仍然较低,比如输入关键词,搜索出的内容各自孤立、凌乱无序。王兆鹏认为,更智慧的古籍整理利用平台,应该从1.0版向2.0版演进,比如内容检索应“以类相从”,检索出的内容应彼此关联,且由人工智能进行有机分类。

北京大学与字节跳动合作研发“古籍数字化平台”是提升古籍整理和利用智慧化水平的一次尝试?!拔颐呛献鞯募际鹾诵氖墙斯ぶ悄芎痛笫萦τ迷诤A康墓偶南咨?,实现古文本知识图谱的自动生成和对古籍内容的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘利用。”李航说,未来,“古籍数字化平台”不仅是一个古籍智能整理平台,还将是一个面向读者的数字化阅读工具,将提供免费开放的访问服务。

王军预计,随着人工智能技术的运用,古籍文献中所蕴藏的古代历史文化知识将不断被抽取出来,构造成各种各样的知识库,并将会以知识图谱的形式支持互联网前端应用。

由于在互联网产品研发、设计方面存在优势,互联网公司等社会力量的加入会进一步保障古籍数字化平台的服务质量?!拔颐怯杏判愕牟肪?、设计师、软件工程师,能够不断优化、创新古籍数字化平台的产品功能,提供更好的用户体验?!北本┳纸谔笠瞪缁嵩鹑尾坎纷芫硖欺铞伪硎荆壳敖袢胀诽醯纳杓仆哦雍投兑舻目?、测试团队已经加入“古籍数字化平台”的开发工作。

需要跨学科通力合作

随着人工智能技术在古籍修复整理领域的广泛应用,作为古典文献专业的老师,杨海峥经常被学生们问到一个问题:“学古典文献的同时,还要学人工智能吗?”虽然杨海峥不能确定,但一个事实是,人工智能技术与古籍修复整理的结合,将开辟出全新的交叉学科领域,利用人工智能技术修复整理古籍肯定需要更多复合型人才。

王军认为,在这种情况下,高校古典文献学等相关专业如何培养兼具技术与学术能力的古典文献学人才,如何形成多学科交叉的课程体系等,都是亟待解决的问题。

此外,人工智能并非“绝顶聪明”。在华南理工大学电子与信息学院教授金连文看来,古籍图像增强、修复,复杂版式古籍文档图像版面分析等问题都有待解决。而在对古籍内容的分析整理中,目前最大的技术难点是人工智能对古籍中人名、地名等专有名词识别后,如何进一步实现关系提取,从而为古代历史文化知识图谱的自动生成准备技术条件。

因此,杨海峥认为,在古籍整理中,人文社科学者还是要积极介入,并加强与技术人员的合作,那样才能更好地利用机器而不是被机器牵着鼻子走,从而保证结果的准确性。

人工智能技术的发展带来了古籍整理研究方法、思路的根本改变。业内的一个共识是,利用人工智能推进古籍修复整理需要进行跨学科、跨环境、跨文化、跨地区合作。正如王军所言,“古籍?;ば枰缁岣鹘绲墓餐Γ队喙偶詹鼗埂⒀芯炕购腿刃墓偶乱档母鋈思尤?,这样才能打造出一个开放的‘古籍数字化平台’”。

《光明日报》( 2022年04月11日?09版)

[ 责编:孙宗鹤]

关键词:

主站蜘蛛池模板: 久久亚洲精品无码va大香大香 | 免费观看激色视频网站 | 免费无码又爽又高潮视频 | 免费一级视频在线播放 | 亚洲av午夜精品一区二区三区 | 国产一区二区三区小说 | 欧美午夜精品一区二区蜜桃 | 999精品在线观看 | 日韩欧美中文字幕在线播放 | 一级视频在线观看免费 | 九九热视频在线观看 | 99免费精品 | 天天躁日日躁aaaaxxxx | 国产视频综合 | 亚欧精品一区二区三区 | 成人欧美视频在线看免费 | 美女的隐私视频网站蜜桃视频 | 一二三四视频在线观看日本 | 久久国产免费 | 2019精品国产品免费观看 | 精品免费国产一区二区三区四区 | 国产精品扒开腿做爽爽爽视频 | 日本三级观看 | 亚洲一级黄色 | 四虎影院观看 | 日日摸天天碰中文字幕你懂的 | 免费看黄色毛片 | 在线看一级片 | 老司机精品影院一区二区三区 | 每天更新的免费av片在线观看 | 国产欧美日韩精品在线 | 激情综合网站 | a级做人爱免费播放 | 国产精品漂亮美女在线观看 | 996久久国产精品线观看 | 精品欧美一区二区三区在线观看 | 99久久无码私人网站 | 欧美人一级淫片a免费播放 欧美人与zoxxxx另类 | 免费观看又污又黄的网站 | 无遮挡啪啪摇乳动态图gif | 国产精品女上位在线观看 |