当前位置: 首页 > 编程日记 > 正文

维基百科联手谷歌翻译,结果“惨不忍睹”!

640?wx_fmt=jpeg


作者 | 琥珀

出品 | AI科技大本营


作为前沿科技新闻报道的一线工作者,我们经常会碰到各种陌生难懂、语言不通的词句。


这直接导致我们在引用和查找信息时,往往辅助以维基百科和谷歌翻译为代表的两大信息引擎,其重要性不言而喻。然而,维基百科的内容显然更偏向于英文内容,举个例子来讲,全球有大约 1200 万人使用祖鲁语,但祖鲁语的维基百科文章大约只有 1000 篇。作为维基百科的词条贡献者们而言,能够快捷方便地创建非英语乃至少数语言的词条基本上是相当迫切的需求。“我们的志愿者们正通过翻译英文的维基条目来弥补这个鸿沟。”


近日,据 VentureBeat 等多家外媒报道,为了解决这个问题,维基媒体基金会(Wikimedia Foundation,维基百科的运营方)表示,正与谷歌合作,将谷歌翻译(Google Translate)将免费集成到维基百科的内部翻译工具中,与开源翻译工具 Apertium 一同成为附加的功能。据称,Apertium 迄今为止已经为 40 万篇维基百科文章贡献了翻译。


两款软件都会先进行一遍机器翻译,然后再交由人类编辑进行手工审查和改进。相比起 Apertium,谷歌翻译新增了祖鲁语(Zulu)、豪萨语( Hausa)、库尔德语(Kurdish)和约鲁巴语(Yoruba)等 15 种语言,共计 121 种。


谷歌承诺,它不会存储和向第三方分享任何个人信息。


使用流程


目前维基百科正尝试开放的新功能包括 TemplateWizard、New wikitext mode、Visual differences、Two column edit conflict以及 Content translation。这简直是维基百科编辑工作者的又一大福利!为此,我们专门探寻了 Content translation 这一功能的使用特性:



如视频所示,通过一些科学的手段,我们终于登录上了维基百科的编写界面。


操作流程如下:


步骤一:点击右上角Beta界面,下拉至 Content Translation,然后点击对勾,并保存。


640?wx_fmt=png


步骤二:点击右上角Contribution,进入编写界面,这时会弹出Translation一栏,点击确认。


640?wx_fmt=png


步骤三:当我们进入Translation后,会看到页面中主要有四个功能键:


640?wx_fmt=png


  • +New translation,可自行创建新的关键词句;

  • Suggestion,推荐的可以修改或编辑的关键词句;

  • In Progress,已保存或正在编辑的所有文档;

  • Published,已发布的文档。


步骤四,输入一组词条后,屏幕界面左侧显示原文、译文,右侧显示翻译辅助的工具,如表格、特殊字符、模板等。


640?wx_fmt=png

640?wx_fmt=jpeg


脆弱的机器翻译


不过,可能正是因为目前处于测试版,我们在接下来尝试用谷歌翻译编写/完善维基百科词条时,出现了各式各样不尽如人意的问题。


比方说,当你输入“ Andrew Ng ”的词条后,满眼可见的是机器翻译后的“硬伤”:


640?wx_fmt=png


“安德鲁严德Ng”、“谷歌脑”……是什么鬼?


640?wx_fmt=png


不过,如果鼠标点击附有超链接的专有名词“Google Brain”,右侧提示栏仍会显示正确的翻译。


640?wx_fmt=png


请问什么是“三个体问题”、“延长的现代意义”、“封闭式解”、“典型机械学”?


640?wx_fmt=png

正常情况下的谷歌翻译


640?wx_fmt=png


在对包含文字的图片进行翻译时,机器的理解能力更是令人堪忧……


640?wx_fmt=jpeg


目前我们仅测试出了英翻汉的机器转译能力,而汉翻英的功能一直未能测试成功。如上图右侧显示,汉翻英的界面里仍显示了“汉语”。


值得一提的是,如果长期停留在翻译页面不尝试任何动作的话,你还会遇到404 的提示。不知道这种问题否仅出现在了营长的电脑上。


以及各种各样的操作提示……


640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png


反正,直到最后,营长表示:累觉不爱。



谷歌翻译,地表最强机器翻译?


2016 年下半年,“神经机器翻译系统(GNMT,Google Neural Machine Translation system)”的面世,将谷歌翻译带入了神经网络和深度学习等人工智能算法驱动的时代。


简言之,GNMT,即用机器学习的方法来训练机器,不告诉机器需要怎样的语言法则,怎样用词造句,而是扔给它一堆素材,让它自我学习自我提高。据官方解释,输入的每个文字都会有一个关于重要性的权重,每个字都和产出的词汇有一定的关系。系统会自己判断,根据权重等信息,抉择翻译出来的下一个词是什么词。


在此之前,多数翻译软件使用的PBMT(Phrase-Based Machine Translation),即将一句话拆成一个个词组(Phrase),然后针对每个词组去寻找合适的翻译词汇。


据当时的报道称,该系统不再将句子分解为词与短语独立翻译,而是翻译完整的句子,将误差降低了 58%~85% 以上。


后来,包括百度翻译、网易有道、搜狗翻译都相继(声称)推出了基于GNMT 的机器翻译翻译工具。


目前机器翻译需要的不单单是定义语法规则的知识,更需要一点常识。对比当前主流的几款翻译引擎在机器翻译上的进步是值得肯定的,同等语料库下,短语类能在更少工程量的基础上实现相同的效果,但纯粹将输入的句子作为一个序列,不考虑句子本身作为语言的特性,生成的内容依然会难以理解。


而实际上,维基百科也意识到了当前机器翻译仍存在着的极大局限性。因而,在制定翻译步骤时,也明确指出:“把这个英文条目翻译成其他语言。你可以在你自己的文字编辑器中进行翻译工作,但请不要只用机器翻译(如 Google)进行翻译。”


详细内容如下:


请避免翻译不熟悉的内容。一方面您很可能无法准确地表达原文含义(甚至改变原文含义),另一方面您可能会因为不熟悉相关主题而把原文的错误内容带到译文之中。


请勿使用机器翻译翻译条目,无论使用哪种机器翻译软件或网站,条目的质量通常都会差到让人难以理解。我们强烈不建议在机器翻译基础上进行编辑。任何人都可以移除条目中拙劣的机器翻译内容;如果条目通篇由拙劣机器翻译组成,那么将可能被提请快速删除。


建议在翻译时每到一个阶段就至少通读一遍译文,修饰文法,使文章内容通顺而且匹配中文语法。


请避免翻译腔。


那么,你认为机器翻译何时才能不需要这些条条框框?



参考链接:

  • https://www.mediawiki.org/wiki/Content_translation/Machine_Translation/Google_Translate

  • https://www.mediawiki.org/wiki/Content_translation

  • https://wikimediafoundation.org/2019/01/09/you-can-now-use-google-translate-to-translate-articles-on-wikipedia/


(*本文为AI科技大本营原创文章,转载请联系微信1092722531)


公开课预告

全双工语音



本期课程中,微软小冰全球首席架构师及研发总监周力博士将介绍微软小冰在全双工语音对话方面的最新成果,及其在智能硬件上的应用和未来将面临的更多技术产品挑战。


640?wx_fmt=jpeg

推荐阅读

  • 程序员有话说 | 程序猿在乘地铁的时候都在想什么?

  • 程序员崩溃了,想拿的年终奖怎么说黄就黄?!

  • 2018全球50大最佳发明名单

  • 资源 | 最新版区块链术语表(中英文对照)

  • QQ卖手办,用AI分析用户评论

  • 放弃幻想,全面拥抱Transformer:NLP三大特征抽取器(CNN/RNN/TF)比较

  • 平均9分!这些课程Google程序员也在追!

  • 你的邮箱信息是否泄露?还不赶紧查一下!

  • 20行Python代码给微信头像戴帽子

相关文章:

Ruby DSL介绍及其在测试数据构造中的使用(2)

在(1)中介绍了DSL和普通的函数定义之间的区别。在(1)的最后提到,DSL分为内部DSL和外部DSL,我们再看一遍他们的定义:1. External DSLs 用不同于host语言的语言来编写,通过编译和解释器来翻译成host语言 2. Internal DSLs 将host语言…

批量编译fla文件

jsfl太神奇了不过内存不高的机器还是少编译一点,会同时打开你选择的文件夹下的所有fla文件,然后一个一个自动编译。Compile flas.jsfl//----------------------------------Start--------------------------------//Brent Arnolds kick butt batch folde…

字符串转换成utf-8编码

a、将字符串转换成utf-8编码的字节,并输出,然后将该字节在转换成utf-8编码字符串,在输出 b、将字符串转换后才能gbk编码的字节,并输出,然后将该字节在转换成gbk编码字符串,在输出 123456789101112def main(…

50万奖金+京东数科offer,JDD-2018全球总决赛冠军诞生

(JDD 大赛总决赛选手与导师、评委合影)整理 | 一一出品 | AI科技大本营1 月 13 日,JDD-2018 京东数字科技全球探索者大赛全球总决赛落下帷幕。在经过 24 小时极限挑战和 2 小时商业路演的较量后,来自以色列赛区的团队“Cheese&…

三星笔记本FN功能键操作大全

Samsung 的快捷键都很简单,提供的都是最常用的功能,但新出的X系列和P系列机的FN快捷键差异很大,例如X10和P25。现在介绍FN快捷键以巧的X10为主,补充说明P25。FN上方向键/下方向键:增加/减低亮度FN左方向键/右方向键:增…

[翻译] Ruby Golf

原文地址:http://rubysource.com/ruby-golf/ Ruby golf is the art of writing code that uses as few characters as possible. The idea originates in the world of Perl (where it is, unsurprisingly, known as Perl Golf). As a language, Perl is well suite…

AI删库,程序员背锅?

作者 | 一一出品 | AI科技大本营又一代码清库的惨案发生了,不过这次要背锅是 AI。近日,美国最大点评网站 Yelp 的工程师训练的神经网络闯祸了。他们训练了一个用来消除 bug 的神经网络,万万没想到,该网络删除一切,从根…

OpenStack Keystone架构一:Keystone基础

一 什么是keystone keystone是OpenStack的身份服务,暂且可以理解为一个与权限有关的组件。 二 为何要有keystone Keystone项目的主要目的是为访问openstack的各个组件(nova,cinder,glance...)提供一个统一的验证方式,具体的&#…

用gdb调试mpi程序的一些心得

Linux下MPI (Message Passage Interface) 的程序不太好调试,在windows下vs2005以上的IDE有集成的简便MPI调试工具,没有用过,有兴趣的可以试验一下。下面总结了一些最近在用MPI和c语言写程序时的调试经验(Ubuntu环境,c语…

开源如何占领软件世界?

作者 | Mike Volpimavolpi译者 | 风车云马编辑 | 一一出品 | AI科技大本营5 年前,投资商对开源这种商业模式的可行性持有怀疑态度。他们普遍认为,红帽(redhat)公司犹如雪花飘零——在软件世界里开源公司不可能占据举足轻重的地位。…

软件工程概论——课堂测试1

设计思想&#xff1a;1.用1个页面&#xff0c;实现课程录入&#xff0c;提交后直接返回课程界面。2.应用html表单属性进行数据的提交。3.用servlet进行写入数据库和验证输入。 源代码&#xff1a; <% page language"java" import"java.util.*" contentT…

过程即奖励(The Journey is the Reward)

今天读完了《乔布斯传》。翻着这本书最后的影集&#xff0c;乔布斯传奇一生的一幕幕仿佛在眼前展开。从第一张照片中特里独行、桀骜不驯的年轻人&#xff0c;到最后一张照片中阳光下慈祥微笑的老者&#xff0c;看到的仿佛不是乔布斯的照片&#xff0c;而是自己的一位人生挚友。…

BREW 计费模式概览

计费模式也就是收入模型是商业模式的基础。BDS分发系统中不但提供了与运营商计费系统的接口&#xff0c;而且直接提供了BREW 计费服务。 BREW分发系统与运营商计费系统的集成&#xff0c;一般就是与运营商的综合营帐系统的集成&#xff0c;需要融合于网元层&#xff0c;资源层&…

程序员崩溃了,年终奖怎么说黄就黄

作者 | 胡巍巍转载自程序人生&#xff08;ID:coder_life&#xff09;往年王者荣耀年终奖200个月100万&#xff08;虽然辟谣是假的&#xff09;、华为年终奖24个月100万&#xff0c;都让我等平民羡煞不已。还有在BAT发生的&#xff08;朋友圈&#xff09;真人真事↓这是年终奖的…

改变IT世界的11大Apache开源技术

据国外媒体报道&#xff0c;转眼之间&#xff0c;Apache软件基金会已经成立10年之久了&#xff0c;11月份&#xff0c;Apache基金会的成员将会为其举行一次大型的庆祝。虽然Apache软件基金会是一个开源的组织&#xff0c;但是Apache却创造了对现代互联网来说很重要的技术。下面…

nginx常用技术

作者:NetSeek http://www.linuxtone.org (IT运维专家网|集群架构|性能调优)欢迎转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明.首发时间: 2008-11-25 更新时间:2009-1-14目 录一、 Nginx 基础知识二、 Nginx 安装及调试三、 Ngi…

2011到过的地方

火车上读《南方周末》&#xff0c;看到记者把自己2011去过的地方在地图上标记&#xff0c;带着标记的世界地图&#xff0c;显得特别而好看&#xff0c;于是很想自己也做一份。找了一些网站&#xff0c;做的图片&#xff0c;差强人意吧。2011到过的地方&#xff1a;这个图不算漂…

2亿简历遭泄漏,到底谁的锅?

作者 | 仲培艺转载自CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;前面刚有 AWS 开战 MongoDB&#xff0c;双方“隔空互呛”&#xff0c;这厢又曝出 2 亿简历信息泄露——MongoDB 的这场开年似乎“充实”得过分了些。长期以来&#xff0c;作为“最受欢迎的 NoSQL 数据库…

Could not apply the stored configuration for monitors 解决办法

Could not apply the stored configuration for monitors 解决办法&#xff1a; $ sudo rm -rf ~/.config/monitors.xml 重启电脑即可 本文转自linux博客51CTO博客&#xff0c;原文链接http://blog.51cto.com/yangzhiming/1225802如需转载请自行联系原作者 yangzhimingg

20行Python代码给微信头像戴帽子

作者 | Leauky&#xff0c;北理工硕士在读&#xff0c;非CS专业的Python爱好者。朋友圈里微信官方要求戴圣诞帽的活动曾经火爆一时&#xff0c;有些会玩的小伙伴都悄咪咪地用美图秀秀一类的 app 给自己头像 p 一顶&#xff0c;然后可高兴地表示“哎呀好神奇hhhh”&#xff0c;呆…

2012关于钱的Tips

对于目前的我来说&#xff0c;死工资是唯一的财富积累手段&#xff0c;而且工资本身还不足够满足所有的物质和精神需求。以此为前提&#xff0c;对钱的来龙去脉有一个了解、把控是极其有必要的。 2011钱的规划基本为零&#xff0c;一年下来惊恐的发现&#xff0c;似乎自己没攒多…

在 Azure 中管理 Windows 虚拟机的可用性

了解如何设置和管理多个虚拟机&#xff0c;以确保 Azure 中 Windows 应用程序的高可用性。 也可以管理 Linux 虚拟机的可用性。 Note Azure 具有用于创建和处理资源的两个不同的部署模型&#xff1a;Resource Manager 和经典。 这篇文章介绍了如何使用这两种模型&#xff0c;但…

[日记]一个人去散步

森林里面的寂静会让每一个人都有所进步。 ——罗伯特M波西格 《禅与摩托车维修艺术》 北陵公园下午5点之后免收门票&#xff0c;我就在这个时间去那里散步。 说起来&#xff0c;我家离北陵西门走路才10几分钟的路程&#xff0c;可是我…

2019年人工智能行业又进入冬天了吗?

【AI科技大本营导语】过去几年&#xff0c;以深度学习为代表的人工智能技术取得了前所未有的高速发展&#xff0c;公司高薪聘请相关领域研究人员&#xff0c;组建人工智能研究团队&#xff0c;相信人工智能带来的巨大商业价值。然而&#xff0c;从近一年的发展态势来讲&#xf…

Vue.js slots: 为什么你需要它们?

也许你已经看过了Vue.js slots的文档。我对这个功能从“为什么你可能需要它”到“没有它我怎么可能工作”的态度转变非常快。虽然文档已经解释了它的概念&#xff0c;但是这里有一个关于slots怎么改进应用程序代码库的真实例子。在我看来&#xff0c;slots是vue最有用和最有趣的…

apache httpd server安装的一个问题

问题&#xff11;&#xff1a; 启动bin/apachectl start的时候&#xff1a; 发现报错&#xff1a;httpd: bad user name daemon 解决方法&#xff1a; groupadd daemon useradd -g daemon daemon 若没有配置合适PATH常量&#xff0c;则可以找 /usr/sbin/groupadd&#xff0c…

telnet 如何退出

ctrl]&#xff0c;然后再输入q就可以退出了。转载于:https://www.cnblogs.com/rethink/archive/2009/10/29/1591898.html

TensorFlow 2.0新特性解读,Keras API成核心

来源 | Google TensorFlow 团队2018 年 11 月&#xff0c;TensorFlow 迎来了它的 3 岁生日&#xff0c;我们回顾了几年来它增加的功能&#xff0c;进而对另一个重要里程碑 TensorFlow 2.0 感到兴奋 &#xff01;TensorFlow 2.0 将专注于 简单性 和 易用性&#xff0c;具有以下更…

列选主元guass消去法

200701020110 07计算机 王再#include <iostream.h>#include <iomanip.h>#include <stdlib.h>void main(){ int flag1;input(); //输入方程 while(flag){ print_menu(); //打印主菜单}void print_menu(){ system("cls");cout<…

Mac 下 IDEA 启动慢的问题

转自&#xff1a; http://blog.csdn.net/KingBoyWorld/article/details/73440717 从控制台来看&#xff0c;每次都会连接本地地址(127.0.0.1)&#xff0c;问题可能就出在这里。 修改本地/etc/hosts文件&#xff0c;添加以下内容: 127.0.0.1 localhost <hostname&g…