第148章你们能比我更懂机器翻译（5k）_科技入侵现代

    “教授，你不是做语言翻译的，语言是规则的游戏，概率这太不靠谱了”保罗·加尔文还想再挣扎一下
    当然他确实也不信翻译和统计学能扯上什么关系
    词语之间一一对应
    英文单词和俄语单词一一对应，直接直译，扩充语料库
    在当时的思维里，这才是正道
    也就是所谓穷举法
    把所有的词语做好一一对应之后，自动翻译也就实现了
    统计学，概率游戏，不谈如果林燃是对的，他们的无能会暴露无遗，光是林燃提到的改进原理从直觉上来说就是错误的
    简单来说，反直觉
    就像在gpt大模型出来之前，大家都觉得算法最重要
    gpt出来之后，大家开始都一窝蜂力大飞砖
    等到deepseek的时候，好像算法有点用
    哪怕是顶级的研究人员，也会有盲从的问题，会有迷茫、找不到方向、走不出来的情况
    在这个计算机的混沌年代，会这样再正常不过了
    “精确？精确意味着出错，现在的计算机远远达不到精确这一点
    你们难道不清楚，你们在54年之所以演示出了良好的效果，是因为那些俄语句子是你们精挑细选出来的
    实际自然语言的复杂性要远超你们预期
    你们只做了语料库的扩展，规则覆盖都没有做，上下文依赖处理也没有
    你们能比我更懂机器翻译？”
    林燃怒吼道：“你们做了九年都没有进展，现在立刻马上按照我说的去做！”
    林燃的地位、实力和权力摆在这，他们根本没有拒绝的选择
    沃森会信林燃就不说了，毕竟深蓝项目才结束，国防部的麦克纳马拉那更是林燃说什么就是什么
    你们这帮搞计算机的能比数学大师更懂计算机？
    林燃在博弈论和统计学上展现出来的风采，麦克纳马拉还没忘呢
    ibm的ceo支持林燃，国防部部长支持林燃，乔治敦大学的研究团队只能被按在地上摩擦
    “我们要做的一共五点，优化算法和规则设计，扩充语料和词汇，改进数据处理的效率，引入统计方法和硬件最大化利用
    其中改进数据处理效率和硬件最大化利用由ibm方面负责
    另外三点则由乔治敦大学的成员们负责
    我们先来谈优化算法和规则设计
    你们一直的问题在于，你们对于规则集的扩张没有引入更加细化的句法规则
    因为存储有限，你们觉得扩充对照词汇库就够了
    实际上句法规则显得更加重要
    你们需要做到，引进常见的高频句型
    对上下文进行依赖处理使词汇翻译考虑前后词，通过有限的上下文窗口来减少歧义
    比如cвet同时有光和世界的意思
    这个完全可以根据前词判断是光还是世界”
    沃森弱弱提醒道：“教授，你还会俄语啊？”
    林燃一副理所当然的样子：“当然，我都和科罗廖夫见了两面，我不会俄语怎么和他交流的？
    我同时会俄语、德语、英语和汉语”
    多语言大师的身份，给林燃的理论增添了几分可信度
    在这个时代，科学家们会几门语言并不奇怪
    当然一些敏感部门会提高对你的怀疑
    以前面提到的约翰·麦卡锡为例，他就精通俄语，从小接受俄语教育长大，尽管他出生在阿美莉卡
    “另外翻译过程，应该是模块化设计，而不是简单的映射关系
    它应该分成预处理、翻译、后处理三部分
    预处理包括了分词和词形还原，翻译才是词典的映射，后处理是对语序进行调整
    这样来降低单次计算的复杂度，提高规则的复用率！”
    林燃的话给了在座研究团队的成员们非常多的灵感
    就好像之前一直陷在百越的丛林里找不到出路，而现在天上出现一道光指引他们怎么样才能走出丛林迷宫
    大家都有点迫不及待去尝试了
    所有研究人员都疯狂在笔记本上记录下林燃所说的
    虽然不确定教授的方法是否管用，但有路总比之前没有好
    再者，如果你不好好记下来，到时候被开除只是教授一句话的事
    “好了刚才我们讲了一些简单的内容，现在才是最难的
    因为ibm的机器不是那么强大，我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度
    我把它叫做基于频率的词对齐
    这也是我们引入统计模型的核
    我们先要手动分析平行句子，标注俄语词或短语与英语翻译的对应关系
    俄语句子mыгoвopnmomnpe
    英语翻译：“
    对齐结果：“mы”对应“we”
    “гoвopnm”对应“speak”
    “o”对应“about”
    “mnpe
-->>本章未完，点击下一页继续阅读

笔趣阁

第148章 你们能比我更懂机器翻译（5k）

第148章你们能比我更懂机器翻译（5k）