“简单举一个例子,比如‘东坡’二字,在历史典籍里随时会出现,只有在作为主语和宾语,而且谓语为人可以施行或者接受的动作的时候,我们才可以大体判定这里的‘东坡’是指人。”
“因此‘与东坡同醉’,这样的语句我们可以粗判为与苏轼有关,而‘醉于东坡’,东坡不是宾语,我们就让程序认为与苏轼无关。”
“当然也有两可之间的,例如‘东坡有田’,这一类语句就还需要扩展判定,这底下涉及到一整套的句法分析逻辑。”
“最后我们会得到这么一批和苏轼有关的子标签,还有一批与其关连较为紧密的关系人,比如这里的‘苏洵’,‘苏辙’,‘王弗’,‘宋仁宗’,‘曹太后’,‘章惇’等。”
“我们暂时先屏蔽掉这类人物标签,仅通过之前的‘轼’,‘子瞻’,‘东坡’三个标签来确定子标签,开始在文库当中检索。”周至熟练地操作和讲解道:“看,最终我们就会得到几千条与苏东坡有关的资料。”
“当然了,我给几位老师展示的是以前的项目,这是运算后的结果,具体的真实运算过程还是需要一些时间的,不可能这么快。”
“在这几千条记录当中,我们可以分作几类。”周至一敲键盘,数千条记录,分出了好几种颜色。
“一类是包含时间的,一类是包含地点的,一类是包含官职的。”周至再一敲键盘,三类数据开始重新排列聚合:“我们根据苏轼的职官、任职地变化,宋史年号,用字用号的变化等等,便能够将这数千条记录排出一个《苏东坡行状》,并在此基础上排出一个《东坡轶事汇编》。”
“这两本书对于研究苏东坡生平履历,职官履历,朋友,亲友,政治盟友与政敌,思想理念等等,都具有非常重要的意义,是非常好用的工具书。”
“现在我们已经完成了这两步工作,正在分析《苏东坡全集》中的诗词,以确定其诗词的创作时期。”
“比如他的《赠刘景文》,我们可以从他的章奏和笔记中看出,他是在哲宗元祐五年,在任杭州时认识的,在元祐五年苏轼曾经向朝廷奏报已经五十八岁的刘景文,称许他为‘慷慨奇士’,结合诗歌环境,应该是作于元祐五年秋末冬初。”
“诸如此类的分析函数有很多,我们甚至有了许多新的发现。他的《和子由黾池怀旧》,诗歌的背景,在检索资料当中就显得一目了然。”
“苏辙十九岁被委任为黾池,不过并未就任就中了进士,随后改任,因此怀旧不会是怀的这个旧,而是嘉佑三年,苏轼父子三人入京应试,路过黾池,寄宿僧舍时作过几首诗于墙上。”
“嘉佑六年,兄弟二人同中制科,苏轼被任为凤翔通判,苏辙送苏轼上任,至郑州分手,因为苏轼此去要经过黾池,想起弟弟的旧作,便取出来写了一首和诗。”
“因此这首诗的年代就可以确定了,乃是嘉佑六年去凤翔任中所作。”
“由此我们便可以将苏轼的诗词重新打乱,排出一个《东坡诗词编年考》来。”
“在过去,想要得到《苏东坡行状》、《东坡轶事汇编》、《东坡诗词编年考》这三部著作,需要一个对苏东坡研究极深的学者大擘,穷尽一生之力方才写得出来,其中还难免出现不少的舛误,而现在我们根据这套引擎工具,很轻松就可以从海量的资料当中提取出来。”
“而且工具成熟以后,我们还可以同步对大量的宋代人物进行分析,得到《欧阳修行状》、《欧阳修轶事汇编》、《欧阳修诗文编年考》;《司马光行状》、《司马光轶事汇编》、《司马光诗词编年考》;《王安石行状》《王安石轶事汇编》、《王安石诗词编年考》来。”
“当然了,除了这些,还有许多宋代研究上的老大难问题,我们也在尝试用这类办法来解决。”
“比如宋代官职的复杂程度,堪称封建王朝之最,不过关于这个的检索算法也最简单明晰,各种史料的《职官》一部,描述得也很详细。”
“不过每个官职在宋代除了正式的公文上会出现正称外,在大量关于日常交往,上下级对话,朋友书信往来当中,会被各种代称来替换,让情况变得更加的复杂,比如知州,其正式的名称应该是知某州军州事,然而在书信往来当中,多以前朝的‘太守’或者‘大尹’等代替。”
“而从就任官员等级上区分,名称又分‘知’,‘充’,‘权知’,‘权充’,‘权发遣’等方式;”
“此外还有‘遥领’,就是给宗室成员一个名义上的地方长官名义,人压根不去,留在京城按照官职领一份俸禄而已。”
“另有一种情况,就是虽然到了地方任职,其实‘不得签书公事’,就是流放到某地,由地方官员监管,不得出州境,属于保留职务级别的软禁,比如白居易的江州司马,苏东坡的黄州通判,就是此类。”
“为此我们正在检索宋代资料,创建一本《两宋职官词典》,将来也会将这个工具,推广到其他朝代。”
“这是目前为止我们能够想到的,依托于数字图书馆,搜索引擎,大数据分析三种开发应用的基础上构建起来的文科项目,受目光和学识的限制,