笔趣阁

字:
关灯 护眼
笔趣阁 > 科技入侵现代 > 第148章 你们能比我更懂机器翻译(5k)

第148章 你们能比我更懂机器翻译(5k)

热门推荐: 光阴之外踏星深海余烬灵境行者
    “教授,你不是做语言翻译的,语言是规则的游戏,概率这太不靠谱了”保罗·加尔文还想再挣扎一下
    当然他确实也不信翻译和统计学能扯上什么关系
    词语之间一一对应
    英文单词和俄语单词一一对应,直接直译,扩充语料库
    在当时的思维里,这才是正道
    也就是所谓穷举法
    把所有的词语做好一一对应之后,自动翻译也就实现了
    统计学,概率游戏,不谈如果林燃是对的,他们的无能会暴露无遗,光是林燃提到的改进原理从直觉上来说就是错误的
    简单来说,反直觉
    就像在gpt大模型出来之前,大家都觉得算法最重要
    gpt出来之后,大家开始都一窝蜂力大飞砖
    等到deepseek的时候,好像算法有点用
    哪怕是顶级的研究人员,也会有盲从的问题,会有迷茫、找不到方向、走不出来的情况
    在这个计算机的混沌年代,会这样再正常不过了
    “精确?精确意味着出错,现在的计算机远远达不到精确这一点
    你们难道不清楚,你们在54年之所以演示出了良好的效果,是因为那些俄语句子是你们精挑细选出来的
    实际自然语言的复杂性要远超你们预期
    你们只做了语料库的扩展,规则覆盖都没有做,上下文依赖处理也没有
    你们能比我更懂机器翻译?”
    林燃怒吼道:“你们做了九年都没有进展,现在立刻马上按照我说的去做!”
    林燃的地位、实力和权力摆在这,他们根本没有拒绝的选择
    沃森会信林燃就不说了,毕竟深蓝项目才结束,国防部的麦克纳马拉那更是林燃说什么就是什么
    你们这帮搞计算机的能比数学大师更懂计算机?
    林燃在博弈论和统计学上展现出来的风采,麦克纳马拉还没忘呢
    ibm的ceo支持林燃,国防部部长支持林燃,乔治敦大学的研究团队只能被按在地上摩擦
    “我们要做的一共五点,优化算法和规则设计,扩充语料和词汇,改进数据处理的效率,引入统计方法和硬件最大化利用
    其中改进数据处理效率和硬件最大化利用由ibm方面负责
    另外三点则由乔治敦大学的成员们负责
    我们先来谈优化算法和规则设计
    你们一直的问题在于,你们对于规则集的扩张没有引入更加细化的句法规则
    因为存储有限,你们觉得扩充对照词汇库就够了
    实际上句法规则显得更加重要
    你们需要做到,引进常见的高频句型
    对上下文进行依赖处理使词汇翻译考虑前后词,通过有限的上下文窗口来减少歧义
    比如cвet同时有光和世界的意思
    这个完全可以根据前词判断是光还是世界”
    沃森弱弱提醒道:“教授,你还会俄语啊?”
    林燃一副理所当然的样子:“当然,我都和科罗廖夫见了两面,我不会俄语怎么和他交流的?
    我同时会俄语、德语、英语和汉语”
    多语言大师的身份,给林燃的理论增添了几分可信度
    在这个时代,科学家们会几门语言并不奇怪
    当然一些敏感部门会提高对你的怀疑
    以前面提到的约翰·麦卡锡为例,他就精通俄语,从小接受俄语教育长大,尽管他出生在阿美莉卡
    “另外翻译过程,应该是模块化设计,而不是简单的映射关系
    它应该分成预处理、翻译、后处理三部分
    预处理包括了分词和词形还原,翻译才是词典的映射,后处理是对语序进行调整
    这样来降低单次计算的复杂度,提高规则的复用率!”
    林燃的话给了在座研究团队的成员们非常多的灵感
    就好像之前一直陷在百越的丛林里找不到出路,而现在天上出现一道光指引他们怎么样才能走出丛林迷宫
    大家都有点迫不及待去尝试了
    所有研究人员都疯狂在笔记本上记录下林燃所说的
    虽然不确定教授的方法是否管用,但有路总比之前没有好
    再者,如果你不好好记下来,到时候被开除只是教授一句话的事
    “好了刚才我们讲了一些简单的内容,现在才是最难的
    因为ibm的机器不是那么强大,我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度
    我把它叫做基于频率的词对齐
    这也是我们引入统计模型的核
    我们先要手动分析平行句子,标注俄语词或短语与英语翻译的对应关系
    俄语句子mыгoвopnmomnpe
    英语翻译:“
    对齐结果:“mы”对应“we”
    “гoвopnm”对应“speak”
    “o”对应“about”
    “mnpe
-->>本章未完,点击下一页继续阅读
『加入书签,方便阅读』
热门推荐
光阴之外 踏星 深海余烬 灵境行者 万古神帝 混沌剑神