“在我看来,新的字库,需要达到几个标准。”
“首先就是码位要宽泛,我的意见是以二十万为基准;”
“其次是对gb2312和gb13000的兼容,需要具备提供完整、清晰、明确的代码映射表,实现自由转换。”
“第三是对标准的用户自定义区和标准保留区的使用做了明确、详细的规定。既要让用户可以在自定义区,利用字库提供的十三笔画和汉字基准部件,造出自己需要的汉字,同时又要对这些新入库的汉字,制定出严格的标准和使用方法,同时还要及时升级,将通过审批的汉字加载进标准保留区。”
“这样可以群策群力,既减少我们的工作量,又让广大用户有了参与字库建设的机会。”
这一条在座的所有人都没有想到过,现在给周至一提出来,大家都感觉眼前一亮,这小子的脑瓜子可真灵!
“最后一条,当然就是强制标准,我们需要一个具备强约束力的标准规范,提高知名度。”
“强制性标准的知名度最高。中文软件的最终用户如果知道了我们制定出了一个最佳的汉字标准,肯定会要求软件开发商来实现它。”
“而反过来,软件开发商也不得不重视标准,实现这个标准,来提高自己的竞争力。”
“这个标准,会不会……太高了啊?”麦明川抠了抠脑门:“我估计百分之九十九的用户都用不到。”
“刚刚说了,用不到全集,可以选用不同层次的子集嘛。”周至说道:“但是这并不能说明大全集就不该有。”
“麦主任,据我所知,电子计算机使用的逻辑算法,包括设计理念,其实也是几十年甚至一两百年前就已经成熟的学科,直到人类在晶体管技术实现突破之后,才将那些成熟学科的数学成果,应用到了集成电路上,形成了如今的信息产业。”
“弗雷格,罗素和布尔,他们也没有说过他们的数理逻辑研究,在十九世纪的时候标准太高了,得等到二十一世纪信息科技萌芽的时候,再让后人来研究也不晚啊?”
“哈哈哈哈哈……”麦明川大笑:“周至同学这是以子之矛攻子之盾,学得一手的好逻辑啊,有没有兴趣来我们计算机系学习啊?这可是如今国家最人才稀缺,需求最迫切的好专业哟!”
“别想了。”辜老摆了摆手:“肘子第一志愿是我中文系,其次历史系,其次哲学系,他是文科生。”
“文科生?”这下轮到麦明川惊讶了:“文科生有如此严谨的逻辑思维?”
“麦主任这就是瞧不起我们了。”周至笑道:“我们的古文有一套反复的语法,这本身就说明我们早就具备了一套严密的思维逻辑。”
“我们古代的名家学派,法家学派,纵横家学派,都是运用这套思维的高手,不能因为我们没有将之单列出来作为一门学问写出专着,就代表我们没有这门学问,就没有人研究过。”
“肘子你扯远了,”辜老笑道:“不过我觉得思路是不错的,我们的目标的确可以定得高一点。”
“辜老,您是不知道现在的内外存储有多贵,”麦明川说道:“字库需要调入内存,才能够快捷方便地使用,现在的计算机系统,内存一般才八兆,加载了操作系统,尤其是现在的可视化系统,会耗用大量的内存,留给应用的,可就已经不多了。”
“随着技术的进步,这些总是可以解决的嘛。”辜幼文说道:“就如肘子所言,我们可以先有思路,有理论,有储备,”
说完拍了拍那堆字稿:“有这些东西,先标准后应用,我看是完全可行的嘛!”
“其实这就和标准计量局里的铂金度量衡一样,”旦增笑道:“标准制定的时候我们不妨就高,等到应用的时候,再因地制宜嘛。”
“其实只要有了标准点阵字,将字库拓展出来就不难了。”李红江有些兴奋:“因为不管汉字是复杂还是简单,是繁体还是简体,其基准笔画和部首结构都是一样的。”
“也就是说,我们完全可以使用gb2312和gb13000的笔画耦合技术,有了点阵字,就可以创造出黑体,宋体,彷宋,楷体四种基准字体。”
“对,这就是我们汉字的优势。”周至说道:“我们的字稿上,点阵字以外的其余三种字体,其实是用来给李教授他们做修正用的,如果李教授认为没有问题的话,今后我就让我同学专门写点阵字了。”
“肘子你这同学也是高中生?那他有没有兴趣来我们计算机系啊?”
“呃,我这同学是水电校,职高那种,已经毕业参加工作了,在蛮州电力公司。”周至说道:“对了我还有个要求,李教授,如果用了我们的字稿,研究者当中,我希望把我同学的名字加进去。”
“现在就剩下开发扫描程序和编码了。”李红江拿两根手指敲着下巴,陷入了思索:“还是时间的问题,要是能够赶在gb13000推出之前最好。我们说服标准委员会的机会更大……”
“其实我还有一个思路,”周至说道。
“你讲你讲。”麦明川现在看着小子一百个的顺眼,理论上这小子已经将大家的思路给打开了,也将最难的水磨功夫都做了,现在就剩下一个入库和编码的问题。
而这两样,国家在编写gb2312和gb13000的时候,已经有了长足的经验。
“其实我们还可以反向操作。”
“什么反向操作?”
“开发一个文字识别软件。”周至说道:“一个能够识别汉字,将汉字加工成点阵字,再将之按照偏旁部首等一定的规则,给汉字自动赋予编码,将之放入字库码位的软件。”
“设计思路有吗?”李红江的这下兴趣来了,中文识别,好东西呀。
“这个程序的设计思路是这样的。”周至说道:“因为汉字本身是有一定组织规则的,以方块字为主,因此我们可以利用这些规则去扫描它,对其进行分析。”
“理论上每个汉字,尤其是印刷体,其重心位置,中宫收放等特征,在一本典籍当中都是同一的,我们可以通过广泛采样,得到均值,再将这些均值作为汉字的字体设计参数,赋给已有的点阵字,产生与典籍一样的字体。”
“如果反过来思考,我们可以认为,每一个典籍上的文字,都是被字体算法计算出来的图形,而这个图形,本身是全覆盖其点阵字的所有边界的。”
“如果我们对其按照之前扫出的参数进行反耦合,也就是做减法,理论上是完全可以将文字图形,减缩成标准点阵字的。”