当前位置: 首页 » 智能资讯 » 智能行业新闻 » 正文

破解梵蒂冈神秘卷宗之谜—人工智能

放大字体  缩小字体 发布日期:2018-05-16  来源:电子产品世界  浏览次数:274
核心提示:梵蒂冈秘密档案馆(Vatican Secret Archives)可谓全球最伟大的历史藏品之一,但其珍藏的许多文件从未转录。近日,一个名为 Codice Ratio 项目,利用人工智能与光学字符识别(简称 OCR)软件的组合重现这些被忽视的文本,并将其重新呈现在世人面前。

梵蒂冈秘密档案馆(Vatican Secret Archives)可谓全球最伟大的历史藏品之一,但其珍藏的许多文件从未转录。近日,一个名为 Codice Ratio 项目,利用人工智能与光学字符识别(简称 OCR)软件的组合重现这些被忽视的文本,并将其重新呈现在世人面前。

AI 识别文字已经不算是什么难事,但是如果字体是手写,而且还是古文呢?这似乎听起来具有相当的难度!

梵蒂冈秘密档案馆(Vatican Secret Archives)可谓全球最伟大的历史藏品之一,但其珍藏的许多文件从未转录。近日,一个名为 Codice Ratio 项目,利用人工智能与光学字符识别(简称 OCR)软件的组合重现这些被忽视的文本,并将其重新呈现在世人面前。

这座恢宏的建筑坐落在梵蒂冈城墙之内,毗邻使徒图书馆、位于西斯廷大教堂北侧,拥有着可追溯于1200年之前的总长达53英里的书架。除了将Martin Luther逐出教会的《教皇诏书》之外,其中还包括苏格兰玛丽女王被处决之前发给教皇西克斯五世的函件。在规模与范围方面,其中的收藏几乎著称无与伦比。

然而,梵蒂冈秘密档案馆对现代学者却没多大现实意义。因为在这长达53英里的书架当中,只有极少数书页经过扫描以提供在线版本,这当中的一小部分转录为计算机文本以供内容搜索。如果我们打算阅读其它任何内容,则必须申请特殊的访问权限,一路前往罗马,并亲自动手翻开这些古籍。

传统 OCR 技术只适用于经过严格排版的文字,而对于字母之间缺少间隔空间(即脏分割)的手写卷宗形式则无法识别。对此, Codice Ratio 项目利用拼图分割法将单词理解为一种单笔笔划,软件只需要知晓哪些组块代表真实的字母,而哪些只是连笔造成的假象即可。该软件的手写字母判断准确率已经高达96%。如果成功,这项技术还将被用于处理世界各地其它历史档案库当中数不胜数的其它记录文件。

利用拼图分割法让 OCR 识别连体字,由于传统OCR技术是把单词分割成一个个字母来识别的,所以对于这类连体字,OCR无法识别字母。有人想出了一个方案,直接让OCR去识别一个个的单词,但是,如何让OCR掌握成千上万的拉丁文单词呢?大概需要一个排的中世纪拉丁文专家来辨认不同单词的图形。

除了请专家辨认单词外,还有更简单的方法帮助OCR识别手写字母,只要找实习生就可以搞定了。我们知道,无论中文还是英文,连体字中粗的部分是笔画,细的部分是笔尖移动造成的虚线,并不是笔画的一部分。根据这个原则,In Codice Ratio的专家们发明了新的方法——拼图分割法。拼图分割法改变了传统OCR把单词分成字母的传统方式,而是是把连在一起的单词按照笔画分隔开,在此之后,该软件会进一步进行字母绘制,并最终生成以下一系列拼图碎片:这些拼图碎片本身作用不大,但该软件能够将其通过多种方式组合起来以生成可能的字母。具体来讲,软件只需要知晓哪些组块代表真实的字母,而哪些只是连笔造成的假象即可。

 
关键词: 人工智能 光学字符识别 AI
 
[ 智能资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]

 
0条 [查看全部]  相关评论

 
 
网站首页 | 订阅电子周刊 | 联系方式 | 关于我们 | 问题解析 | 版权隐私 | 使用协议 | 网站地图 | 网站留言 | 广告服务 | 积分换礼 | RSS订阅|
安全联盟站长平台 不良信息举报中心网络110报警服务
深公网安备案证字第 4403101901094 号 粤ICP备12078626号-1
增值电信业务经营许可证号 粤B2-20120463