资深人工智能研究员Andrew Dai表示,在谷歌DeepMind任职14年后,他近期已离职并将创办一家新的初创企业,专注于研发可同步理解和处理文本、图像、视频及音频数据的人工智能模型。

  Dai以及另一位知情人士透露,这家名为Elorian的新创公司正在与投资者洽谈一轮规模约5000万美元的种子轮融资。该知情人士还称,Striker Venture Partners目前正洽谈领投此轮融资,这家风投机构由风投公司CRV前普通合伙人Max Gazor于去年10月创立。

  该知情人士透露,Yinfei Yang是Elorian的联合创始人,此人曾担任苹果公司研究科学家,负责该公司人工智能模型相关工作,于去年12月离职。Dai和Yang均已更新领英个人资料,显示任职于一家“保密模式”企业,其中戴的资料标注其职位为首席执行官。

  在周六的电话采访中,Dai表示Elorian的核心业务是研发人工智能模型,这类模型可通过同步处理图像、视频和音频数据,对物理世界进行视觉层面的解读与分析。他提到,机器人技术是Elorian人工智能模型的潜在应用场景之一,同时该初创公司还规划了诸多其他应用方向,但并未展开说明。Yang暂未就相关问询作出回应。

前谷歌、苹果研究员为New Visual AI初创公司募资5000万美元  第1张

  早期由OpenAI等企业研发的人工智能模型仅基于文本数据训练,不过近年来行业趋势已转向基于图像和视频数据训练的模型。这一被称为视觉推理的研究领域,目前已成为谷歌、OpenAI、Anthropic等众多大型人工智能企业及初创公司的布局重点。亚马逊也于上月在其年度云技术大会上,推出了一款同类人工智能模型。

  视觉推理模型专为复杂人工智能应用场景设计,例如机器人系统。这类模型具备多功能融合能力,能够省去开发者整合不同人工智能模型的工作。部分研究人员指出,该技术对于人工智能智能体具有重要价值——此类智能体需要解读和识别截图等图像信息,进而完成处理零售商品退货、审核法律文件等复杂任务。

  根据Dai的领英资料,他在谷歌DeepMind任职期间,曾担任Gemini系列模型数据预训练工作的联合负责人,该预训练技术是Gemini系列模型的核心底层支撑。此外,戴还曾与谷歌多位知名研究员联合发表论文,其中包括Quoc V. Le,以及谷歌深度思维与谷歌研究院首席科学家Jeff Dean。

  该知情人士表示,Andrew Dai是语言模型领域的先驱,过去20年间始终深耕预训练相关研究。

  该人士补充道,他的研究工作大多聚焦于两大方向:一是研发用于评估人工智能模型训练数据质量的技术,二是确保模型的训练数据来源于多个不同渠道。