李彦宏:5500亿知识图谱叠加检索增强
发布时间:2023-03-16 21:46
众所周知,不管是ChatGPT仍是新必应都会呈现“一本正经胡言乱语”的时分。有了前车之鉴,百度怎样处理这个问题?
 
“这种生成式的言语大模型的确会呈现‘一本正经胡言乱语’的现象,大家在其他大模型的体验过程中应该有这种感觉。”3月16日,百度创始人、董事长兼首席执行官李彦宏在新闻发布会上回答汹涌科技(www.thepaper.cn)的提问时表明,“百度在这个方面的确有优势,咱们做了常识增强和检索增强,所谓的常识增强便是有5500亿常识图谱里的事实,它叠加了这些生成式大模型之后,就可以做一些查看,看看生成出来的内容到底和事实是否符合。”
 
“检索增强也是一样。”李彦宏说,他昨日询问文心一言怎样看GPT-4,“它可以十分及时地总结出这些高时效的信息和内容。有检索才能和常识增强,叠加预练习生成大模型,就可以做得更好,未来大家在这个方面也会看到咱们不断的进步。”
 
在李彦宏看来,曩昔这一年多,人工智能范畴发生了比较显着的变化——从曩昔的判别式的人工智能,转向了生成式的人工智能。
 
什么是判别式的人工智能?李彦宏解释道,“曩昔十几年人工智能在做这件事,比方拿来一个东西,不管是照片仍是视频,人工智能来判别这个跟用户检索的东西是不是最相关,应该排在第几位,亦或拿来一个照片识别出这是杯子仍是茶壶。”
 
而在曩昔一两年时间,人工智能开始走向生成式,即提一个要求,然后就可以发生符合要求的内容,包含文字、图片、视频。
 
对于3月16日文心一言的首先发布,百度首席技能官王海峰直言,这不是头脑发热。
 
“这是十余年的技能堆集和产业实践的瓜熟蒂落,咱们在人工智能四层的技能架构(模型、结构、芯片、使用)上都有很深的堆集,尤其是结构层和模型层联合优化发挥了十分大的作用。具体到文心大模型自身,百度从2019年开始深耕预练习模型研制,到现在历时四年,既有根底大模型,也发布了全球首个常识增强千亿大模型鹏城-百度·文心,后面还有一系列更新的模型,而这些模型便是练习文心一言的根底。同时,在技能上,不管是深度学习自身的技能仍是对话技能,都有许多堆集。”王海峰说。
 
另一方面,有了技能,还要有数据。王海峰接着说道,“咱们在人工智能开展的过程中,尤其在使用过程中,比方搜索引擎抓取了十分巨大的网页库,通过许多精密的处理,堆集了高质量的数据。曩昔几年,尤其是跟着百度智能云的开展,在服务客户过程中,咱们也堆集了许多职业数据,所有这些叠加在一起促成了今日在这里开文心一言的发布会。”
 
对于ChatGPT的开发组织OpenAI所寻求的AGI(通用人工智能),王海峰以为人工智能永久不会完全跟人类的智能划等号,“咱们要做的是不断研究更先进的人工智能技能服务人类。”