更多精彩 >

响铃:AI翻译引进NMT技术,就能精准识别“语境”吗?

2018-06-08 10:52:41   来源:科技向令说  作者:曾响铃 

摘要:AI翻译作为垂直搜索产品,因其明朗的落地应用场景而备受巨头们关注。

《圣经.旧约》里记载着这样一段故事:


当时人类联合起来兴建希望能通往天堂的高塔,为了阻止人类的计划,上帝让人类说不同语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。


巴别塔典故,为世上出现不同语言和种族提供了解释。尽管互联网的出现,让“地球村”的梦想在地理空间上不再是遥不可及,但语言理解与文化背景成为了全球沟通最大的障碍,又生生的让梦想变得骨感起来。


好在,各大搜索引擎都推出了AI翻译。


1、AI翻译这条赛道上,巨头们都绕不过的“坎”


AI翻译作为垂直搜索产品,因其明朗的落地应用场景而备受巨头们关注。


2016年,GNMT技术(谷歌的神经网络机器翻译技术,模仿人脑的神经思考模式)全面布局于谷歌翻译系统中,随后,谷歌声称其AI翻译的译文质量误差降低了55%-85%,并且将此技术广泛应用于网页翻译与手机应用。


国内,百度当时已经研究出了可应用的SMT技术(统计机器翻译),但得知NMT的横空出世之后,便迅速调转方向转而研发NMT技术,于是就有了BNMT应用于百度翻译。尽管初时的百度翻译速度很慢,但是,百度当时反应也佐证NMT的价值性。


搜狗、阿里、腾讯等公司也都有部署NMT领域,推出多款基于神经网络的在线翻译和手机应用,在智能翻译领域持续发力。360搜索自占据国内搜索引擎行业二哥的位置后,同样专注在AI领域与其他巨头角力,上线了基于NMT的360翻译,以期与去年上线的360英文搜索“双剑合璧”。


但是我们会发现,不论是谷歌还是BAT,其智能翻译从未能声称能替代人工翻译,因为翻译还必须考虑到到使用者的情感及文化背景。从2016年起至今的两年时间里,对海量语料的深度学习逐渐成为AI开发的必修课,也成了巨头们布局AI翻译绕不过的“坎”。


正是在这样的背景下,360翻译的深度学习调度平台卯足了劲,在深层技术和语料挖掘上下苦功夫。除了发挥360搜索在新闻资讯方面的既有优势外,360的英文搜索还与微软旗下的搜索引擎Bing开展技术合作,从而使得其AI翻译背后坐拥海量中英网络语料,让其在理解语境方面更显地道。另外,360翻译采用的也是独家研发的360NMT技术。


但这依然还只是个开始。


2、搜索平台不约而同发力NMT,为的是哪般?


19.jpg


不论是国外的谷歌,还是国内的搜索巨头百度、搜狗、360等,均把NMT作为AI翻译的标配,翻译集中的领域在中英互译上,这是一个很有趣的现象。AI翻译真的是块肥肉吗?惹得谁也不愿意掉队。


据统计表明,全球一共有73个国家,超10亿人以英语为官方语言,而汉语则是世界使用人数最多的语言,因此,中英互译本身的用户基数市场就能引起巨头们足够的注意力了。为什么要发力NMT,这得从AI翻译人类语言的方式说起,包含三种:第一,基于规则的机器翻译方法;第二,基于实例的机器翻译方法;第三,基于统计的翻译方法。SMT与NMT都属于第三种,从语料自动学习翻译模型,结合大数据通过评分输出翻译结果。


但是,SMT与NMT存在着显著的差距。SMT采用的模式是通过平行语料进行统计分析,翻译的准确性则与语料的丰富度呈明显的正相关,但是存在着翻译结果太过零散,片面生硬,语法语义混乱的劣势。而模仿人类神经网络构建模型,NMT是以一个句子为基本的处理单元,好处在于翻译过程中有着更好的语感,能降低SMT翻译的关于“形态、句法、词序”等方面出错的概率。因此,NMT在技术上恰巧可以有效弥补SMT的缺陷。而随着语料不断地加码,AI翻译的准确度也就高得多。


3、AI翻译引进NMT技术,就能精准识别“语境”吗?


搜狗同传翻译在某次国际性会议上,声称其神经网络机器翻译技术已达临界点,并在进行大规模商用推广。只是,搜狗的同传还是在国际会议上出过争议,结果不尽如人意。即便在正式的场合能够应对自如的搜狗,在非正式场合会是怎样一种情况呢?很多时候的中英交流多以口语化形式出现,对“语境”的理解远比“语法和词汇”难得多。下文我们将就几组语句进行讨论(以下从搜狗、360搜索、百度以及谷歌四大平台进行对比)。


第一组:献上我的膝盖。看看,最近这句网络常用语各翻译平台的水平


谷歌:Offer my knee。


360:express my admiration。


百度:Offer my knees。


搜狗:Give me my knee。


测试结果是搜狗、百度、谷歌均倾向于单词表面意思的翻译,并未能结合具体的文化背景,而360对于该网络用语的解释就地道的多。


第二组:诗词,选自杜甫的《登高》。因其诗中主要是以诸多意象组成的意境,看翻译能否反馈这种情感。


《登高》原文摘选:


风急天高猿啸哀,渚清沙白鸟飞回。


英语译文:




有趣的是将各自翻译的英文译成中文时,没有一个平台能还原。而在诗歌的中译英中360能够结合“语境”处理诗中的意向要素,搜狗翻译表达出了“悲怆”的情感,而百度翻译和谷歌翻译则完全是从字面上进行翻译,破坏了诗的美好。


第三组:新闻,选自红网。语言简练正式,但涉及的元素较多,对语法的要求性比较高。


原文:据长沙市住房和城乡建设委员会网站显示,2018年5月23日,长沙共计有两个项目获批预售证,均位于雨花区,分别为五矿万境蓝山和创元时代。


译文:




同一段新闻,出现了四种不同的译法。同一语句中各家强调的点不一样,譬如首句的“长沙市住房和城乡建设委员会”,360的翻译结果更显得专业并符合惯常表述,“长沙市”只是作为补充词出现,而搜狗、百度和谷歌的翻译中,“长沙市”则是作为硬性的地名出现。尤为值得注意的是,根据语境,“五矿万境蓝山”和“创元时代”都是楼盘名字,应当由汉语拼音直译,只有360识别到这一点,搜狗、百度和谷歌三家都在“矿”、“蓝山”、“创元”、“时代”等字眼上纠结。


从这三组中,我们能发现360偏好于基于“语境”的逻辑进行分词,虽然也有做的不到位的,像针对诗词这样复杂的情感语句就无法准确传达,但是在“流行语”优势明显;而谷歌和百度基本上是基于词组进行断句,因此,翻译也是一个词一个词,尤其是对古诗词的理解,谷歌就显得比较忧愁了。


因此,AI翻译的问题主要反映在三大方面:第一,机器翻译难以应对语言规则不统一的口语;第二,AI翻译难以结合文化语境进行理解,解析不出深层次的情感;第三,针对较长的段落,以及较为复杂的语境,往往会出现语法问题多,语句出错率高的毛病。


4、AI翻译要“地道”,技术倒不是关键


翻译界老将何恩培曾讲:“机器翻译一直被公认为人工智能领域最难的课题之一。而且语言背后的多元文化和复杂社会属性,注定了语言规则不可能规律化”。但是,中国有句老话:勤能补拙。对于AI翻译而言,最难的不是技术,而是“语境”理解,而AI翻译能力的级别高低又体现在这,集中体现了平台喂养语料的资源状况。AI翻译能否“地道”,取决于以下几点。


1、训练数据库的内容整体优质程度


这影响到翻译准确程度,取决于信息资源的整合能力。不论是BAT,还是360、搜狗、有道等,都在注重内容生态建设,搜狗有了腾讯微信入口搜索,360抢占了安全领域的数据来源。但是,这不可能是一个完全开放的体系,没有哪一家能够整合整个互联网的资源,各平台训练数据库各有侧重,AI翻译特色也不尽相同,例如360翻译侧重于地道的口语与流行语,百度翻译则显得大而全。


2、开放平等的中外数据交流,或可加强AI的深度学习


国内对标竞品之间的合作相对较难,但中外数据交流却是最好的互补。因此,百度上线过英文搜索产品,而360与微软Bing有过技术合作。此外,有了国界互译也变得更有意义。因此,中外数据合作,或许对于文化背景的数据积淀有很好的补充,也是扩充深度学习的语料最直接的方式。


3、需要准备大量的网络语及口语语料


除了诗词蕴含深厚文化底蕴外,网络语和口语是与一个地域的文化最为接近的语言形态,时下搜索引擎从被动搜索向主动的、基于用户兴趣的内容推荐引擎转型,这对于构建口语语料训练模型倒是一个不错的尝试。


虽然说,AI翻译能够精准识别“语境”是需要很长一段路要走,但是技术已经在进步,360翻译能够开始揣摩语句背后的情感与心思,对于日常交流来说是一个很好的开端。或许,我们将因此离“地球村”的梦想更进一步!


猜你喜欢
原创

字节跳动,在中国搞出“ChatGPT”?

AI字节跳动ChatGPT

字节跳动,再次激活AI赛道?

2024-12-25

原创

原创科幻数字IP白月城发布AI短剧先导片,探索千亿级市场

AI

《白月城》由“风起”“云涌”“拨云”“见月”四部曲组成,超现实科幻剧集,各篇章环环入扣,高潮迭起。

2024-08-26

一场AI与设计师的同台竞技,你更看好谁?

金融科技AI

如同工业革命的开启,机器代替了大部分的手工,提升了生产效率;AI时代的到来,减少了重复、低价值的脑力...

2024-08-15

AI创新为消费电子“添翼” 产业链公司加码布局

AI

首先,AI技术的引入将推动消费电子产品的功能升级和性能提升,如更智能的语音助手、更精准的健康监测、更...

2024-06-20

原创

AI“乱杀”时代,我们真正需要的是什么样的产品?

AI

本周,苹果股价连涨三天,终于在美东时间6月13日周四收盘时超过微软,重新夺回全球市值最高公司的头衔。

2024-06-14

国内领先的在线工业CT企业【工源三仟】完成亿元A轮及A+轮融资,加速扩张产线级工业X-Ray/CT检测装备应用

创新创业工源三仟

国内领先的在线工业CT企业北京工源三仟科技有限公司(以下简称“工源三仟”)日前完成亿元A轮及A+轮股...

2024-08-26

见证中国AI的闪光时刻!2024AGI商业趋势大会成功举办

峰会2024AGI商业趋势大会

8月22日,2024AGI商业趋势大会在深圳成功举行。

2024-08-26

泓德基金:鲍威尔释放9月降息信号,总体讲话偏鸽

金融科技泓德基金

上周主要宽基指数全周跌幅普遍在2%以上,市场成交量仍然在日均5000亿元附近,行业板块方面,除家电和...

2024-08-26

原创

信宸资本旗下新能源电动车充电产品企业Intramco与上海汽车达成业务合作协议

新能源信宸资本

(2024年8月26日)信宸资本(中信资本控股有限公司旗下的私募股权投资业务)宣布,旗下领先的新能源...

2024-08-26

中科星图上半年盈利增长80.05%,蓄发新动能中科星图加速构建全产业链布局

上市公司中科星图

8月22日晚间,中科星图披露了2024年半年度业绩报告,报告显示,报告期内,公司实现主营业务收入11...

2024-08-26

微众银行首推“政银股”模式,携手股交中心拓宽科创企业服务边界

金融科技微众银行

近日,微众银行与北京股权交易中心、齐鲁股权交易中心、青岛蓝海股权交易中心、山西股权交易中心、陕西股权...

2024-08-26

温度服务不打烊,优化服务不止步,中信银行深圳分行持续升级柜面服务

金融科技中信银行

今年以来,中信银行深圳分行深入践行“有温度的服务”理念,聚焦客户“急难愁盼”事项,优化客户服务体验,...

2024-08-26

生物科技赋能绿色洗衣,洗涤业跨入可持续发展新阶段

大消费洗衣液

人民网北京8月20日电 (焦磊)可持续发展是国际社会发展的共识,也是企业大力布局的赛道。

2024-08-26

2024太阳岛企业家年会丨微博王巍:“人工智能+”助力传统企业智能化转型

智能+2024太阳岛企业家年会

8月22日至24日,2024太阳岛企业家年会在哈尔滨举行,来自海内外“政产学研用“领域超千位嘉宾出席...

2024-08-26

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

沙特天空塔投资设立专项基金带领中国氢能独角兽扎根沙特

2016年注册于北京的中氢新能技术有限公司,下设位于大兴的装备制造公司、位于海淀区的技术研究院、材料...

挑战奔驰的明星车企,突然“翻车”了

一度无比高光的理想汽车,猝不及防遭遇重挫。

深圳天使母基金姚小雄:将来股权投资行业竞争是服务能力的竞争

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

避免卡脖子,硬科技如何“逆境”突围?

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

VC/PE眼中的“专精特新”

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会于2025年4月9日在匈牙利布达佩斯盛大启幕。

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

“中国投资年会”作为私募股权行业的年度盛会,已成功举办了18届,吸引了全国VC/PE领域从业者的广泛...

雕刻耐心|第18届中国投资年会·有限合伙人峰会即将启幕

雕刻耐心|第18届中国投资年会·有限合伙人峰会即将启幕

2024年的一级市场,“耐心”是最高命题,也引发了持续全年的讨论。

不响不辍|第18届中国投资年会·年度峰会在沪召开

不响不辍|第18届中国投资年会·年度峰会在沪召开

5月8-10日,由投中信息、投中网主办的“第18届中国投资年会·年度峰会”在上海外滩W酒店盛大召开。

2024汽车科技创新与成果转化大会在常州成功召开

2024汽车科技创新与成果转化大会在常州成功召开

4月12日,2024汽车科技创新与成果转化大会在常州经开区成功召开。