人工智能首页 > 机器人 > 正文

机器人“成为”人的第一关是语言

2024-07-01 阅读2次

　　机器人“成为”人的第一关是语言。

　　起初，优必选尝试使用传统的处理方法和AI小模型来实现这一目标：先给机器人预设一些关键词，然后再利用传统的小语言模型(SLM)进行语义分割，通过识别关键词来让机器人触发相应的指令。

　　焦继超将这个过程描述为“类似于条件反射”。尽管这种方法能够让机器人熟悉特定的语言命令，但对于未预设过的关键词和命令，机器人很难给出正确的反应。

　　为了扩展机器人的“词汇量”，企业不得不通过编程不断添加预设程序和关键词，以模拟更多的条件反射，让机器人能响应更多的人类语言。这一过程既烦琐又复杂，涉及数据采集、标注、训练以及验证推理等多个环节，工程师们还需要不断地调整参数。

机器人“成为”人的第一关是语言

　　尽管团队付出了巨大的努力，但机器人在语言理解上始终存在局限，无法达到与人类自然对话的水平。反应慢、缺乏思考和推理能力，对于预设之外的新情况和问题，机器人往往无法给出合适的反应。焦继超说，这无疑给团队带来了巨大的挑战。

　　面对这种情况，他们转而探索另一种技术——知识图谱技术。他们构建了一个庞大的知识图谱库，希望通过命中关键词来搜索数据库中的知识，并据此生成回答。这种方法在一定程度上提升了机器人对自然语言的理解能力，但仍然存在局限性，机器人的回答往往预设性强，缺乏灵活性和人性化，这与团队追求的自然、流畅的人机交互体验仍有很大的差距。

　　经历了一系列的尝试后，焦继超认识到，要实现真正的突破，需要更先进的技术。

　　机器人有了嘴巴、眼睛和耳朵

　　2021年底，OpenAI发布了具有里程碑意义的ChatGPT模型。ChatGPT以其强大的语言理解和生成能力引起了广泛关注，它在自然语言处理技术上取得了飞跃式的进步，开启了人工智能的“大模型时代”。

　　商汤科技智能产业研究院院长田丰对经济观察报说，在IT时代，人类通过编程语言开发软件、实现人机对话，而大语言模型的出现简化了这一流程，通过“人类母语”就能实现人机对话，这显著降低了软硬件开发和使用AI的门槛。

　　焦继超首次使用ChatGPT时感到非常兴奋，因为这种技术为解决机器人的语言交互问题提供了新的可能性。2022年初，焦继超团队通过开源的方式引入了大语言模型，并尝试将其与机器人现有的系统集成，利用多年积累的数据和场景来提升机器人的语言交互能力。

　　结果令焦继超惊喜，他举例称，当用户说“我有口腔溃疡”时，机器能够理解其含义并推理出“缓解症状需要补充维生素”“水果里有维生素”，然后询问用户要不要吃水果，在用户同意的前提下去为其拿取水果。

　　田丰说，AI大模型不仅能读懂语言、文字，还能读懂语气、情绪，能敏感地捕捉和理解上下文信息。

　　但这还远远不够。人类有五官，大语言模型仅仅作为机器人的语言系统而存在，机器人还需要多种感官能力。焦继超注意到，处理图像和语音的大模型也相继被开发出来，这些模型的能力可以处理和理解机器人采集的视频、音频，像人的大脑能够处理眼睛和耳朵收集到的外部信息一样。

　　2023年9月，OpenAI根据ChatGPT进一步发明出了具备图像和语音识别功能的GPT-4V，这意味着AI开始模拟人脑中复杂的神经网络来识别图像和声音，并将其转换为语言指令。

　　田丰称，正如人类有视觉、听觉、触觉、味觉、嗅觉五感，这种多模态大模型带来了多种感知能力。

　　焦继超和团队运用技术的手段将“嘴巴”“眼睛”和“耳朵”串联起来，并实现互通协作，机器人变得能看懂、听懂人类的指令，也就能够更加准确地执行命令。

　　焦继超说，当一个机器人具备了类似人类的眼睛，只要它进门在你家转一圈，观察一下，便会自主在“大脑”中形成一幅房屋的空间格局与陈设的地图，过程中无须人为干预，而在过去，一个机器人观察环境之后，还需要工程师做大量的建模和编程，才能在机器人的“大脑”中“画”出一幅空间地图，为后期的行动提供导航。

来源：https://baijiahao.baidu.com/s?id=1800622462141019429&wfr=spider&for=pc

AI教育

AI安全与教学，Farneback与压缩新探

机器人“成为”人的第一关是语言

AI教育

深度学习