谷歌搜索太拼:为搞定神经网络 召集百名PhD人工
近日,谷歌把神经网络算法加入手机端搜索。为了让搜索更智能,谷歌在全世界聘用了百名语言学博士,夜以继日地标注文本数据,来训练神经网络。虽然无监督学习成为热点已有些时日,谷歌还未能摆脱人工处理数据的困境。
搜索“世界上最快的鸟是什么?”
谷歌会告诉你:“游隼。根据 Youtube,游隼被记录下最高 389 km/h 的时速。”
这的确是正确答案,但它并非来自于谷歌的数据库。当你输入这个问题的时候,谷歌搜索引擎找出了一个描述世界上五种最快鸟儿的 Youtube 视频。然后它只把最快的“一种”鸟儿的信息提取出来,不提及另外四种。
这是谷歌搜索最新的技术进展。为了回答这些问题,谷歌需要借助深度神经网络。作为 AI 技术之一,它不仅正在重塑谷歌搜索引擎,还在革新谷歌全套人工智能服务。其它互联网巨头当然也受到波及,例如 Facebook 和微软。
深度神经网络是一种模式识别系统。它能通过分析海量数据,学习如何处理特定任务。这个例子中,它学会了怎么在网络上的长篇文字中找出相关的一句或一段话,然后提取其中的要点呈现给你。
移动端谷歌搜索刚刚上线这种“句子压缩算法”(sentence compression algorithms)。这个对人类来说很简单,但对传统的机器来说很难的任务,终于能被 AI 系统完成。这说明,深度学习正在促进自然语言理解这门艺术(理解并回应人类语言)的发展。
谷歌研发产品经理 David Orr 说:“对于“句子压缩”,你不得不使用神经网络算法,因为这是目前我们发现的唯一方法。”
为了训练神经网络算法,谷歌在全世界聘用了约百名语言学博士处理数据,对它们人工筛选。事实上,谷歌的系统是从人类那里学习,怎么在大段文字中提取有用信息。而这过程需要一遍遍地重复——这是深度学习一个很大的限制。雇佣大批语言学家不停地筛选数据既麻烦又极其昂贵,但短期内谷歌没有别的办法。
“黄金数据”和“白银数据”
谷歌也使用过期的新闻来训练 AI 问答系统。这使 AI 逐渐理解,新闻标题是如何对文章主体进行归纳的。但这并不意味着谷歌不需要成批语言学家了。他们不仅示范句子压缩,还要对语句的不同部分做标记,以帮助神经网络理解人类语言是如何工作的。David Orr 把谷歌语言学家团队处理的数据称为“黄金数据”,过期新闻则是“白银数据”。“白银数据”作用不小,因为它的体量很大。但价值最大的还是“黄金数据”,它们是 AI 训练的核心。语言学家团队的负责人 Linne Ha 透露,在可见的将来,语言学家队伍仍会继续扩大。
这类需要人工辅助的 AI 学习便是“监督学习”(supervised learning),目前,神经网络都是这么运作的。有时候公司会把这个业务进行众包,有时候它会自发地进行。比方说,全世界的网民已经为数百万的猫咪照片添加了“猫咪”标签,这会让神经网络学习识别猫咪变得很简单——训练数据已经处理好了。但很多情况下,研究人员们别无选择,只能自己一次次为数据添加标签。
深度学习初创公司Skymind 的创始人 Chris Nicholson 认为,长远来看,人工标注数据是不可行的。他说:“将来一定不会是这样。这是极度枯燥的活儿。我想不出比这更无聊的 PhD 工作了。”
监督学习的缺陷远不止如此:除非谷歌聘请所有语言的语言学家,否则这个系统无法在其他语言中运转。现在,语言学家团队的工作横跨了 20 至 30 种语言。谷歌必须在将来的某一天,采取更自动化的 AI 训练方式,即“无监督学习”(unsupervised learning)。
到了那时,机器将能够从未经人工标注的数据中学习。互联网上海量的数字信息可以被直接用于神经网络学习。 Google、Facebook 和 OpenAI这样的巨头们已经开始这个领域的研究,但它的实际应用仍然非常遥远。现在,AI 学习仍然需要幕后的大批语言学家队伍。
您可能也感兴趣:
官方微博/微信
每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。
想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
中科曙光董事长收到证监会立案告知书
外媒揭露苹果手机回收商私自将报废手机销往中国
刘强东会亲自开播吗?
5499元起!华为Pura70系列先锋计划开售
iPhone 16 Pro影像规格曝光:超广角将升级至4800万像素
一季度全球智能手机出货近2.9亿部 小米传音出货量同比均有大增
花旗预计“每卖一台SU7亏6800元” 小米高管回应:信息偏差较大
苹果将允许用户和第三方维修商使用二手正品零部件维修iPhone
苹果市值一夜暴涨8113亿元 据称拟升级整个Mac产品线
更多
- 延迟降低2倍!英特尔披露至强6处理器针对Meta Llama 3模型的推理性能
- 中科曙光董事长收到证监会立案告知书
- 外媒揭露苹果手机回收商私自将报废手机销往中国
- 润开鸿发布鸿蒙应用产品 蚂蚁数科mPaaS提供支持
- 2023年营收165亿元,三七互娱拟提升分红频次至一年四次
- “AI换脸”骗走2亿港元 专家支招如何防范
- 媲美GPT4的开源模型Llama 3怎么用?亚马逊云科技官方教程已上线
- 谷雨“龙井”奶茶外卖量涨5倍,茉莉奶白等多品牌联合饿了么上线“春日收官”新品
- 《热辣滚烫》获北影节“春节档特别荣誉” 出品人侯晓楠:海外票房已破700万美元
- Qorvo 谈 Wi-Fi 7、BMS 及 Sensor Fusion 的技术革新之力
更多
- 消息称特斯拉下周将宣布在印度投资 最多30亿美元
- 特斯拉全球裁员不会影响墨西哥超级工厂建设 当地称正按计划推进
- Meta推出Llama 3大模型 在集成近25000块英伟达H100计算集群上训练
- 消息称苹果12.9英寸版iPad Air将采用mini-LED显示屏 在5月初推出
- 从5nm制程工艺来看 台积电3nm工艺或要明年才能成为最大营收来源
- 台积电一季度营收188.7亿美元 预计二季度会更高
- 分析师称iPhone 17 Plus屏幕将略小于iPhone 15 Plus和iPhone 16 Plus
- 苹果有意代工商在印尼建厂 CEO库克称将评估可行性
- SK海力士Q1营收有望超过12万亿韩元 营业利润重回万亿韩元之上
- 消息称苹果有意在印度生产iPhone摄像头部件 同当地厂商有过接触