这两天,汉字简繁文本智能转换系统网站高调上线了,官媒相关报道很多。甫一公开,就遭到了小伙伴们的一片质疑声:这系统有必要重新开发吗?动用了多少科研经费?它的使用效果如何?……质疑是正常的,毕竟它是由国家教育部、国家语委启动的,是带有“国”字头,动用了不少的公帑的,民众有权利检验它的效果!在此之前,谷歌翻译很早就已经推出了免费的文字和网页的在线翻译版,微软Word等办公软件中也是提供了简繁体转换插件,国产的WPS办公软件也有这样的插件,而其它网站上推出的各种各样的免费转换网页更是不计其数。
那么,由厦门大学牵头开发的这套简繁体转换系统究竟有什么优势呢?该项目主要负责人、厦门大学人工智能研究所所长史晓东介绍,该系统能够进行“面向台湾”和“面向古籍”两种字体简繁转换,克服了同类软件在“一简对多繁”转换情况下的不足。同时,系统可进行字、词、专业术语、标点符号等多种转换,也可对网站全部页面进行转换,满足用户不同使用需求。“经中国中文信息学会评测,该转换系统在字级别简体到繁体的转换准确率达到99.99%。相关专家认为,该系统转换准确率高,功能丰富,性能稳定,研究成果处于国际领先水平。”
简繁体转换中的各种问题
作为一个史学爱好者,对这套系统的密切关注是自然而言的。自从经过大学繁体字的系统培训和学习以来,十年的时间一晃而过,但是在繁简体的使用上,有些时候依然不得其道,转换时也是要时不时查询权威词典才敢下笔。不熟悉简体字和繁体字系统的朋友可能会说,这有什么难的,一一对应不就得了!果然是无知者无畏……要是能简单一一对应啥事都好办了,也不用花这么多钱来开发这套系统了。问题是:简体字中存在着大量的不对应现象,主要就是一个简体字可能对应N个繁体字,比如:
原简体字:历史、日历;头发、发财;胡须、必须;面貌、面包;物理系、关系。
实际转换中可能会出现这样的“国际玩笑”:
错误的转换:曆史、日歷;頭發、髮財;鬍須、必鬚;麵貌、面包;物理係、關系
正确的转换:歷史、日曆;頭髮、發財;鬍鬚、必須;面貌、麵包;物理系、關係
有时候,因为不同文化环境下,各种人名、地名等翻译也不同。比如,在大陆叫“短信”,在港台就变成了“簡訊”了,類似的“前缀”、“词组”、“激光”、“公元”可能会变成“首碼”、“片語”、“鐳射”、“西元”,等等。以上这些是日常生活中经常遇到的,在学术使用中,远远要比这个更多、更繁杂。所以,简繁体要想做到完美转换,最重要的应该是建立合适的语料库,而语料库的建立必定涉及巨量的语言学统计“大数据”。据官方公布的资料,该系统的语料库繁体字语料库有22亿字,简体字语料库有50亿字。巨量的语料库应该是没问题的,问题是,是否真正地做到了有效统计,采用什么样的分析、对比方法才是最关键的。如何统计、采样、分析以及建立模型就不是我等所能讨论的了,还是直接看使用体验吧。
网页版、单机版和插件版使用体验
简繁体转换系统目前有网页版、单机版和插件版,下面(繁體中:下麵/下面是不同的)就逐一谈谈我的使用体验。网页版主要是适用于少量文字,临时使用比较方便。网页版主要有“面向古籍”和“面对台湾”两个页面。面向台湾页面除了能够转换词语、标点之外,还提供计算机、生物等一些专业名词的转换服务。简单测试了一下,感觉“面向台湾”的比“面向古籍”的页面准确率要高一些。比如,输入“周润发最近发财了,要去理发换个新发型”,你就会发现两个页面转换的结果竟然是不同的(换句话说至少有一个是错误的)!今天测试的时候,发现网页版频繁出错,估计是上线初期,数据库和网络尚需调试的缘故。
简体转换成繁体出现错字
程序频频出错
网页版还提供网站的翻译,这个对于我来说一点用途都没有,所以也就没测试。我想,绝大多数的网民也不会使用这个功能吧?简繁体虽然有区别,但是读懂应该都是没啥问题的。看个网页犯不着这么麻烦去简繁体翻译吧?
单机版的使用相当的复杂,竟然需要在Windows命令行界面下运行,且要求电脑内存须在8G以上,这太坑爹了。试问:有多少人会为了简繁体转换而去输入、运行那么多的命令符?又有多少人的电脑内存是8G以上的?所以,从实用角度来讲,单机版目前形同虚设。以后要想推广,肯定需要改进。但是,项目做完了,以后能不能改进还是未知数。
对于我而言,最重要的是它的Word插件功能。在官网上下载了插件,并按照说明顺利安装。安装过程中,需要联网下载Microsoft Visual Studio 2010 Tools for Office Runtime (x86和x64)语言包-简体中文。我写论文,向来都是使用繁体字,这样的话,以后想转成简体字非常容易;反过来,则会频频闹笑话。用我的一篇20页的论文简单测试了一下,发现转换的成功率还是挺高的。具体比例我当然做不了统计,但是通过和Word自带的简繁体转换相比,个人认为它的精确度是要胜于微软的。准确率是提高了,但不得不说的是,转换的速度实在不敢恭维。20页的论文,在我的电脑上用了31秒才转换完毕,转换过程中,Word程序有短暂的假死现象,而微软10来秒便搞定了。所以说,插件的转换速度还有待提高。
最终,使用的体验总结下来就是:Word插件版最适用,但运行速度需要提高;网页版频频出错,数据库和服务器需要完善;单机版,要么改进,要么直接雪藏吧!
补记:刚发现Word插件版为什么那么慢了——原来转换时必须联网,离线模式下无法使用!这其实也就意味着:转换之前,需要先把你的文字上传到他们的服务器,服务器分析、转换处理,然后再反馈到Word。如此大费周章,怎能不慢!再者,信息安全,有保障吗? 2014年11月21日22:13:07
这是坑爹的节奏啊!有没有不断完善的先例呢?大学搞的东西,项目一结束,没有经费,还谈什么维护提高?目前这种鸡肋型成品,也算能用?
这应该是国家教育部、国家语委委托的项目,类似于“国营”。反正已经通过了专家验收,后续如何继续完善、服务器如何维护、又有多少人使用,无所谓了……
类似研究结束,通过验收却不能实际应用的事我也听老师说过,阿福你是过来人,知道的更多一些了!
我们工作中常用,不过基本上WORD也能满足了。
Word由简体转成繁体的时候,是需要万分注意的,不然真的会闹笑话。非正式场合也就算了,要是正式用文,还真得细致逐一检查。
浪费钱呀,整些没用的东西。
多少还有些用,只是不知道投入的资金是多少。只能猜测说:砸进去了一块黄金,烧出来了一片铁。
竟然是公费的……
8G内存…随便包给哪个软件公司做,做成这样也是不合格品吧!
只能理解为这个软件是定位于“未来”,具有很强的超前意识……
这种项目挺无聊的。诚然,现有的软件转换会出现转换错误,但准确率已经很高了,有没有90%?假定有吧,那这个项目花了那么多人力财力,最多也只能提高10%而已,我觉得不值。另外,“转换准确率达到99.99%”这说法不科学,不提样本量和置信区间的统计数字毫无意义,这更让我怀疑这个项目的科学性。
目前的转换成功率,不止90%,只是个别有时候会出错。
这个鉴定结果,你我说了不算,“专家”说了算,最重要的是,项目审查者也只参考专家的意见。
原来费那么多钱是为了解决历史遗留问题!当初如不推行简体字的话就神马事都没了!
世上没有后悔药啊!
其实,多少更应该庆幸,幸亏当初没有强制全部转成罗马拼音,不然的话,连字形都不保了。
我原来一直用谷歌翻译的简体转繁体功能,刚看你的文章的时候,还一位是一种能直接导入简体文档,转换后导出繁体文档的高级货。怎料在网站上一看,功能跟谷歌翻译差不了多少阿。
群众的眼睛是雪亮的。要不怎么会质疑声一片呢!
这个我好像都是用的word