二三书库

字:
关灯 护眼
二三书库 > 科技入侵现代 > 第67章 你们能比我更懂机器翻译(5k)

第67章 你们能比我更懂机器翻译(5k)

第67章 你们能比我更懂机器翻译(5k) (第1/2页)

“教授,你不是做语言翻译的,语言是规则的游戏,概率这太不靠谱了。”保罗·加尔文还想再挣扎一下。
  
  当然他确实也不信翻译和统计学能扯上什么关系。
  
  词语之间一一对应。
  
  英文单词和俄语单词一一对应,直接直译,扩充语料库。
  
  在当时的思维里,这才是正道。
  
  也就是所谓穷举法。
  
  把所有的词语做好一一对应之后,自动翻译也就实现了。
  
  统计学,概率游戏,不谈如果林燃是对的,他们的无能会暴露无遗,光是林燃提到的改进原理从直觉上来说就是错误的。
  
  简单来说,反直觉。
  
  就像在GPT大模型出来之前,大家都觉得算法最重要。
  
  GPT出来之后,大家开始都一窝蜂力大飞砖。
  
  等到deepseek的时候,好像算法有点用。
  
  哪怕是顶级的研究人员,也会有盲从的问题,会有迷茫、找不到方向、走不出来的情况。
  
  在这个计算机的混沌年代,会这样再正常不过了。
  
  “精确?精确意味着出错,现在的计算机远远达不到精确这一点。
  
  你们难道不清楚,你们在54年之所以演示出了良好的效果,是因为那些俄语句子是你们精挑细选出来的。
  
  实际自然语言的复杂性要远超你们预期。
  
  你们只做了语料库的扩展,规则覆盖都没有做,上下文依赖处理也没有。
  
  你们能比我更懂机器翻译?”
  
  林燃怒吼道:“你们做了九年都没有进展,现在立刻马上按照我说的去做!”
  
  林燃的地位、实力和权力摆在这,他们根本没有拒绝的选择。
  
  沃森会信林燃就不说了,毕竟深蓝项目才结束,国防部的麦克纳马拉那更是林燃说什么就是什么。
  
  你们这帮搞计算机的能比数学大师更懂计算机?
  
  林燃在博弈论和统计学上展现出来的风采,麦克纳马拉还没忘呢。
  
  IBM的CEO支持林燃,国防部部长支持林燃,乔治敦大学的研究团队只能被按在地上摩擦。
  
  “我们要做的一共五点,优化算法和规则设计,扩充语料和词汇,改进数据处理的效率,引入统计方法和硬件最大化利用。
  
  其中改进数据处理效率和硬件最大化利用由IBM方面负责。
  
  另外三点则由乔治敦大学的成员们负责。
  
  我们先来谈优化算法和规则设计。
  
  你们一直的问题在于,你们对于规则集的扩张没有引入更加细化的句法规则。
  
  因为存储有限,你们觉得扩充对照词汇库就够了。
  
  实际上句法规则显得更加重要。
  
  你们需要做到,引进常见的高频句型。
  
  对上下文进行依赖处理。使词汇翻译考虑前后词,通过有限的上下文窗口来减少歧义。
  
  比如свет同时有光和世界的意思。
  
  这个完全可以根据前词判断是光还是世界。”
  
  沃森弱弱提醒道:“教授,你还会俄语啊?”
  
  林燃一副理所当然的样子:“当然,我都和科罗廖夫见了两面,我不会俄语怎么和他交流的?
  
  我同时会俄语、德语、英语和汉语。”
  
  多语言大师的身份,给林燃的理论增添了几分可信度。
  
  在这个时代,科学家们会几门语言并不奇怪。
  
  当然一些敏感部门会提高对你的怀疑。
  
  以前面提到的约翰·麦卡锡为例,他就精通俄语,从小接受俄语教育长大,尽管他出生在阿美莉卡。
  
  “另外翻译过程,应该是模块化设计,而不是简单的映射关系。
  
  它应该分成预处理、翻译、后处理三部分。
  
  预处理包括了分词和词形还原,翻译才是词典的映射,后处理是对语序进行调整。
  
  这样来降低单次计算的复杂度,提高规则的复用率!”
  
  林燃的话给了在座研究团队的成员们非常多的灵感。
  
  就好像之前一直陷在百越的丛林里找不到出路,而现在天上出现一道光指引他们怎么样才能走出丛林迷宫。
  
  大家都有点迫不及待去尝试了。
  
  所有研究人员都疯狂在笔记本上记录下林燃所说的。
  
  虽然不确定教授的方法是否管用,但有路总比之前没有好。
  
  再者,如果你不好好记下来,到时候被开除只是教授一句话的事。
  
  “好了刚才我们讲了一些简单的内容,现在才是最难的。
  
  因为IBM的机器不是那么强大,我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度。
  
  我把它叫做基于频率的词对齐。
  
  这也是我们引入统计模型的核。
  
  我们先要手动分析平行句子,标注俄语词或短语与英语翻译的对应关系。
  
  俄语句子Мыговоримомире
  
  英语翻译:“Wespeakaboutpeace
  
  对齐结果:“мы”对应“we”
  
  “говорим”对应“speak”
  
  “о”对应“about”
  
  “мире”对应“peace”
  
  然后我们需要对这种对齐的频率进行统计。
  
  统计每个俄语词或短语在英语中的对应翻译出现的频率。
  
  例如,在语料中,“говорим”在80%的句子中翻译为“speak”,20%翻译为“talk”。
  
  这样对于我们就可以构建概率表了。
  
  将这些概率整理成表格,供机器进行查询。由于内存空间有限,我们暂时只存储高频词对,像出现次数前1000的词对,忽略低频情况。
  
  当翻译某个词的时候出现多个选择,就参考概率表选择最可能的翻译。
  
  另外就是统计相邻词的共现频率。мы经常与говорим一起出现,对应Wespeak,机器在翻译的时候则优先选择这个组合。
  
  通过规则优先处理和统计方法处理模糊情况的方式,来弥补规则的不足!”
  
  林燃从统计学的角度给他们好好上了一课。
  
  不过这只是一个开始。
  
  在座的研究团队们知道了林燃优化策略的轮廓,具体实践过程中还有大量的细节要进行调整、尝试和优化。
  
  不过光是现在所说的引进概率,这一点,在座乔治敦翻译机器的资深研究员们都有种恍然大悟的感觉。
  
  前面讲的优化算法和规则设计什么的,他们感觉有道理,但判断不了具体实践是不是真的管用。
  
  但这统计学方法的引入,光靠想象就知道,能够显著提升乔治敦翻译机器的效果。
  
  当天的工作结束后,红石基地周边的小餐馆里,加尔文和多斯特尔特坐在角落,面前是两杯当地特色的啤酒。
  
  加尔文放下笔记本,叹了口气说:“利昂,我们真的是蠢货吗?”
  
  今天听完之后,加尔文都要怀疑人生了。
  
  林燃提出了一整套的解决方案,这套解决方案里完整也就算了,其中很多点他们都想到过,但想不到要如何实现,另外就是一些他们连想都没有想到的点。
  
  一整个团队差不多快十年的研发思路,不如林燃一下午的干货多。
  
  加尔文已经怀疑人生了。
  
  “教授的想法不是超前,而是太实际了。
  
  你会感觉天马行空,但实际上结合在一起想想,又会觉得无比的实际。
  
  哪怕现在还没开始,光是从教授提出的框架,我都能想到,采用这套完整方案对乔治敦翻译机器升级后,它的效果会有多好。”加尔文接着感慨道。
  
  现在他终于知道为什么NASA的研究人员和工程师能容忍林燃的毒舌了,差距太大,心服口服。
  
  尤其统计相邻词汇共现频率,这并不难想到,但他们就是想不到。
  
  而用统计方法处理歧义场景,增加统计学算法,这个就他们连想都想不到。
  
  

(本章未完,请点击下一页继续阅读)
『加入书签,方便阅读』
热门推荐
御鬼者传奇 逆剑狂神 万道剑尊 美女总裁的最强高手 医妃惊世 文明之万界领主 不灭武尊 网游之剑刃舞者 生生不灭 重生南非当警察