2014年11月,我写了一篇有关由厦门大学牵头完成的《汉字简繁文本智能转换系统》的简评博文。那时只是简单地测评了一下,并没有严格意义上的实战。尽管如此,还是发现了诸多问题。这两天,借助我写就的一篇繁体字论文来实际操作了一把。初步检查了一遍,发现问题不少。以下为论文中实际出現的文本:
1. 遣使徃答其意
2. 五月去舟纔還
3. 他卻在其論著中
4. 扵是日本王良懷禮遇載䓁
5. 趙孟頫
6. 衣綿繻布
7. 海上峯峦红日近
8. 録
9. 幾夜吟窓月影西
以下为(1)使用简繁体智能转换word插件转换的结果;(2)MS Word自带工具的转换结果;(3)正确的转换结果。
亮色文字标示出来的都是错误的转换文字。从表中可以看出,厦大智能转换有9个错字,MS Word转换有7个错字。我这篇论文共29529字,其中正文是19819字,而这些转换出错的字全部来自正文,所以其错误率大致在4.5/10000,而官方宣称是1/10000。因为我研究是中国历史,文中引用了一些不太常见的繁体字,照理来说,这个错误率还算可以接受,但是问题是:这个智能转换系统可能比MS Word自身所带的免费工具错误率还高,而且实际操作中还出现了两个奇葩错误:
(1)转换“趙孟頫”和“繻布”两词时,系统无法识别,结果弹出了这样的结果。然后,这两个词后面所有的文本都不能再转换了。要想继续进行,只能绕过这两个词,从后面的部分再重新操作进行转换。
(2)不能转换也就罢了,竟然出现了自动删除注释的情况,而且没有任何的提示。删除注释的情况是发生在上述识别错误之时,也就是说,智能系统若遇到不能识别的情况时,它还会自动改变文档内容。删除注释的情况极其隐秘,幸亏我整篇文章重新核对了一下,不然损失太大了。
以上是今天实际操作中所出现的具体问题。俺只阐述实情,不抒发感情。。。
如果你不事前知道谁开发的,用了之后也该知道了。
具体还是不知道是谁开发的,只知道官方介绍说是厦大牵头搞的。
自动改变文档内容——这个真的接受不了,操作前还是先备份比较好。
遇到不能处理的情况,就莫名把后面的一个文字或注释给直接干掉,太恐怖了。不能处理,你就放那不管就行了,何必再动其它文字呢……
所以说这个系统还没有Word好用?
这篇文章,我是使用了智能转换系统和word自带转换,然后将转换后的文档做了详细对比。就我这篇文章而言,Word在转换速度方面秒杀前者,准确度方面略胜几个字,误删率为零。从这三方面来讲,对比结果明显。
微软的实力果真是不可小觑!!
全球的网络字体标准,是微软而非各国政府来制定的。。。
第二个错误简直无法容忍.
微软的不能叫免费工具.
“免费”是你拥有了Word之后,启用这个插件是免费的。。。
金山wps文档应该是彻底免费的,而且转换成功率也挺高。
我记得简繁文本转换好像用 javasript也是可以的,以前网页上可以直接转换,速度也挺快的。
提供简繁体转换的网站非常多,准确率基本雷同。若想提高准备率,唯一的途径就是建立大量的语料库和映射库,这个非语言学家不能做,比较消耗精力。
软件用户体验不行啊,还需大大的改进
网页版基本上没法用,插件版速度太慢,准确率没有明显的提高。
马光兄有没有想过是不是自己的使用方法不对?
从对比中看出,厦大智能转换有抄袭MS Word转换的嫌疑,怎么错都错得一样?
我这边的操作上应该不存在什么问题的。下载安装插件,然后点击按钮操作就行了,很简单,不涉及复杂的设置。
这也不是什么抄袭不抄袭的,主要是语料库的建设问题。如果语料库收集的不完整,映射转换时就很容易出现错误。
现在繁简转换不是很多吗
是的……
我感觉我国在很多方面就像个晚点的列车,追也追不上,有时候还不得不给后面的快车让路。