论文部分内容阅读
古籍数字化包含图像化与文本化两个方面,二者相互影响、互为补充.目前古籍数字化实践在文本化工作的字形处理标准方面遇到了瓶颈,亟须重视.字形处理的本质是认同别异,即什么样的字可以被认同为同一个字,什么样的字应当被区别为不同的字.字料库在汉字层级单位理念的指导下,能够为认同别异提供判定标准.建设大规模统一字料库是制定字形处理标准的主要途径,这需要业界和学界携手合作,从古籍数字化的实践中提取字料、建设字料库,同时,以字料库反哺古籍数字化,为之提供字形处理方面的强大支持.