微软为何押宝人工智能?
在微软位于华盛顿州雷德蒙德的总部,面对访客, Satya Nadella迫不及待地向我们介绍微软的人工智能情况以及微软在建立智能软件和智能服务上的进展。Nadella告诉大家,每天早晨,他都会戴上HoloLens全息透镜,查看投影在墙面上的虚拟交互日历。Nadella也表示他会感觉有点眩晕。HoloLens系统是智能的、有创造力的并且极具未来感:他希望微软的一切发展都处于他的领导之下。
Nedella表示,无论我们将来在哪里工作,微软都会拥有一席之地。今年三月,微软揭露了其“对话即平台”(conversation as a platform)战略,表明微软在下很大一盘棋——微软认为聊天界面会取代软件app成为我们使用互联网获取信息、购物和访问服务的最主要手段。而得益于微软提供的“认知API”,app会变得越来越智能,能轻易地读懂照片和视频中蕴含的面貌、情感以及其他信息。
微软认为,微软在机器学习和自然语言处理上发展了将近二十年,建立了最完美的“大脑”,为人工智能驱动的未来服务。微软在建设网络机器人(bots)一块拥有先发优势,早前在中国的微软小冰实验证明微软设计的bots能与用户产生情感共鸣。在所有的科技巨头中,微软是第一个为基于文本的聊天界面发布真实平台的公司——对于微软而言,这是一种骄傲,虽然在智能手机蓬勃发展的今天,这项业务已经多多少少被边缘化了。
错失智能手机市场后,微软能打赢下一场战争吗?
今年一月,The Verge曾报道科技企业都在致力于研究自己的杀手锏机器人。接下来几个月,大大小小的科技公司都加速了bots开发与投入。Facebook基于其受欢迎的聊天软件Messenger开发了自己的bot开发平台。今年5月,谷歌推出了即时通信软件Allo和针对亚马逊Echo推出了智能音箱Home,Allo和Home上搭载有谷歌最新的智能助手。与此同时,Echo这款基于声音输入的应用程序深受开发者喜欢,已经进驻300万户家庭,通过API增添了1200项“技能”。
微软以其在人工智能上的成就为荣,渴望向大众传达一个想法,即此时此刻微软已经为赢取胜利整装待发。今年6月,我们受邀到微软园区,采访了Nadella的核心团队,这群人将人工智能嵌入到了微软的每一个部门。微软在两天的时间里,向我们展示了其在自然语言处理和机器学习上的进步,以及其在多领域的广泛应用。
微软向来都是做大博弈。微软对于技术的历史直觉一直都是相当准确的。但是微软凭借本能行事时也可能会遭遇滑铁卢。例如,微软比同行更早看到智能手机和平板电脑的潜力。但是苹果和谷歌却打败了微软。微软在人工智能上的努力带来了一个简单的问题:
这次应该有什么不同呢?
在建设bots上,微软相比其他美国公司可能已经取得了更多成功。但你可能并没有意识到这一点,因为微软在机器人上的成功最开始发生在中国。
2016年1月(实际是2015年12月22日开始),人工智能机器人微软小冰(SHAO-ICE)登录东方卫视早间新闻负责天气播报板块。“小冰”是“小Bing”的中文表达。必应Bing是微软开发的一款失败的搜索引擎。但小冰特别聒噪。
照相机投射出一个虚拟的演讲台和飘浮在上方的光圈,小冰以微型手机的形象出现,用温柔的女声播报天气,回答新闻主播的提问。
“我们发现这款bot的新工作模式,有很大希望能实现人机对话。”
小冰是微软如此重视bots的关键所在。“我不会就此认为,我们开发出了微软的杀手锏机器人。但是我们发现这款bot的新工作模式,有很大希望能实现人机对话。”Bing搜索引擎部分主管Derrick Connell如是说。
2014年,微软将小冰引进到中国即时通信软件微信(WeChat),小冰能像微软的虚拟助手小娜Cortana一样回答简单的问题。尽管小冰擅长的是聊天。但是程序设计小冰能对情绪敏感,能记住之前的聊天内容。倘若你正经历分手?小冰能安慰你。
小冰在中国即时通信软件巨头微信上运行三天后,获得了150万条聊天记录。之后,小冰进驻中国微博服务软件Weibo,成为最受关注的明星账户之一。直至今日,超过4000万人使用过小冰,小冰和使用者之间平均进行26个来回对话。
对于Connell而言,小冰为下一代搜索引擎指明了道路。传统上,网民使用网络查询,搜索引擎会反馈给用户一个页面,上面有10个蓝色超链接结果;而最完美的聊天机器人仅仅只会反馈给用户一个正确的答案。
当然,小冰在中国的成功可能并不能转化为在美国的成功。(微软的第一个英语聊天机器人Tay就是一个失败产品。)小冰亮相两年后,仍然没有同样成功的英语机器人出现,也没有即将成功的英语机器人冒头。但是微软的高管们表示,小冰背后的基础架构对于微软而言是个巨大的机遇。
“我们想要建立一个生态系统。”
“这是现代社会——你并不需要成为演讲和语言理解上的专家,”Connell说:“使用工具即可实现。借助微软的工具,你能构建出自己的品牌bot,它能运行在任何一个平台上——可以是Slack,可以是Facebook Messenger,我们期望是Skype或者Windows。这在于用户的选择。”
开发者日益担忧,在机器人标准的制定上会爆发战争,微软却一反常态地灵活变通。今年六月,微软在旧金山举行会议,提倡机器人制造者之间要展开密切合作。“我们真的对互相配合很感兴趣——我们想要建立一个生态系统,”微软负责这次参观的高级工程师程丽丽(Lili Cheng)表示:“所以问题应该变成,面对困难和挑战,我们一起合作能解决吗?”
通过举行Botness会议,微软率先启航bots研发,微软希望能把自己置于这场bots变革的中心。如果微软获得成功,微软将领航下个阶段的移动时代。世界上最火的即时通信软件中都将安装由微软技术驱动的bots,微软会在新时代中立足并攫取巨额利润。
战略
当然,微软并不是唯一一个尝试为下一代计算系统建立定义平台的公司——如果聊天也能转变为平台的话。每一个主要的科技公司和一大群初创企业都在建设人工智能部门,经常能取得令人瞩目的成果。但这里要说明一点,比较公司之间的人工智能成果是非常困难的,甚至是完全不可能的。像谷歌、Facebook和亚马逊这样的公司,许多研究成果尚处于保密阶段。巨头高管在被问到他们的人工智能有什么不同时,他们总是含糊其辞——譬如谷歌CEO Sundar Pichai仅仅表示谷歌在人工智能上投入研发了“很长一段时间”。
近期,驻守风投公司Andreessen Horowitz的未来学者Benedict Evans发表了一篇博文,论述人工智能的未来仍然迷雾重重。“这个领域发展地如此之快,无法判断最强领导者必定会如何如何,弄清楚什么能成为商品、什么将会与众不同也都非易事。”他写道:“尽管,与人工智能相关的大多数计算机科学信息和程序都已公布和开源,但实现起来却非常繁琐——这些技术也不一定能成为商品。”
每一家科技巨头都为这场战斗做好了准备。
微软全球执行副总裁陆奇(Qi Lu)很高兴人工智能能成为微软最具有竞争力的优势之一。陆奇是Nadella高层管理团队十二人组中的一员,负责监管微软的应用和服务部门。他是一名计算机科学博士,名下有20项相关专利。几分钟后,我开始明白为什么微软员工乐于听他演讲——他智慧超群,他讲话时会不耐烦地剁脚,似乎苦恼于嘴巴的表达速度完全跟不上大脑的运转速度。他穿着袜子、凉鞋、短裤和装饰着“创造史诗产品(Make epic shit)”的T恤。
陆奇首先介绍了第一波移动网浪潮展现的不足之处。移动设备网络流量的份额从未超过桌面设备网络流量,表明用户对数字化体验仍感沮丧。“我们知道,手机尚无法完全使用互联网。”陆奇说。而且除了几个大类,在其他方面用户拒绝下载app。西雅图的居民可能会被要求下载一个app,仅仅为了查阅一年中只搭乘几次的渡船票价——肯定存在更好的模式。“我们的工业尚未建立能完全释放移动和云的全部价值的数字化体验平台,”陆奇表示:“基本上,app并不是最佳模式。”
App作为接口取代基于HTML的网络,是因为app是我们在当时能做出的最佳产品。那时你对着手机叫喊,你想要的东西也不会从互联网进入手机,因此开发者建立了复杂的隐藏管道,你能通过大图形按钮与互联网进行交互。按钮仍然是你做成其事的最有效率的通道。但是得益于在自然语言处理上取得的进步,现在你对着手机叫喊,你想要的东西就会从互联网进入手机。陆奇说下一代“数字化体验平台”将从“对话”开始,与人类的行为契合地更自然。如果你能透彻地了解这些,你就能将这闪亮的大按钮叠放成一体,然后一起释放其叠加功能。“我们看到,一个应用服务全方位地使用语言作为基准,但却通过一种有思想的、有意思的图形交互来提升体验。”陆奇表示。
将五种资本结合在一起,你能发现为什么微软会如此乐观。
陆奇说,为了赢得这场人工智能争夺战,微软需要五项“关键资产”。第一种是“对话画布(conversation canvas)”——员工可以在此进行大量的对话和文本工作,对此微软拥有文档服务Office、邮箱服务Outlook、即时通信Skype和个人智能助手微软小娜Cortana。第二种是人工智能“大脑”——一个针对世界的复杂心智模型。微软表示其对人工智能的投入可以追溯到大约20年前。第三种是社交图谱的访问权限——人们在网络上的活动连接着他们的朋友和同事。无独有偶,在我们和陆奇会面几天后,微软宣布它将投资262亿美元收购职业社交网络领英LinkedIn,获取其4.33亿位注册用户。
第四种是运行人工智能的平台。微软拥有操作系统Windows和一系列的设备产品——特别是家用电视游戏机Xbox,都是极佳的平台。第五种是开发者会渴望在其平台上建立网络,并愿意为此付费。三月举行的微软Build开发者大会的主要目标就是挑起开发者的兴趣并为此再添一把火。
但微软的每一样资本都有着强劲的对手。可以说,Facebook在其多种即时通信软件上建立了更强的对话画布;当然,Facebook也拥有最大的社交图谱。谷歌的“大脑”可能更智能,而且谷歌拥有几十亿安卓设备最广泛的访问权限。但是将五种资本结合在一起,你能发现为什么微软会如此乐观。“微软对这五种资本的掌控力,”陆奇说:“让微软能领导未来。”
大脑
微软全面拥抱人工智能在两年前的首届Code大会上就已经非常明显。(第二年的Code会议由The Verge的母公司Vox Media举办。)那时Nadella刚刚履新微软CEO三个月,站在Code大会的讲台上,讨论微软的未来。在演讲的最后,他展示了Skype中的一项新功能。微软的两名雇员在讲台上对话——一个说英语,一个说德语——Skype实时对对话进行翻译,让两人能毫无语言障碍地交流。这是一个令人印象深刻的试用软件——Nadella宣布在年底推出此产品。
“Nadella真的用这款Skype翻译软件将我们送进了炼狱。”
回到身处雷德蒙德的Skype团队,Nadella的时间表像一枚重磅炸弹。“这对我而言完全是一件意想不到的事,”微软研究院联合副总裁Peter Lee说:“Nadella真的用这款Skype翻译软件将我们送进了炼狱。”刚开始,团队就出现了两个主要问题。一个是一直以来微软研究院都不曾将研究变成产品推向市场,研究员担心他们会丧失追求科学突破的自由。
另一个问题是那时Skype翻译试验软件并不完善。微软的语言模型建立在大量的正式语言之上——譬如联合国证言等。但是Skype翻译器的双路通信却非常不同。对话中会出现很多“不流畅”的地方——譬如,说话者磕磕碰碰说出一个词语 ,或者回头将一句话重复一遍。还有“语码混合(code mixing)”,在英语世界之外,说话者通常在一句话中会使用多种语言。然后还有唱歌——显然人们常常互相歌唱。这表明,计算机对此进行语法分析时会非常困难。
“基本上,这些都还没做好,”Peter Lee表示:“我们不得不重新训练模型。”但是Peter Lee的团队受Nadella鼓舞,准备大干一场,并在12月发行了Skype翻译器预览版。翻译器在第二年得到大面积的免费使用。Peter Lee毫不掩饰对Nadella的赞许,并称其为“激进主义活动家”,Skype翻译器项目最终是令人激动的。“假设我们这个团队士气低沉,对产品何时能研制成功感到恐惧,你必须得想方设法让员工度过低潮期。当你做到这一点,你会看到奇迹。”
这并不夸张。微软现在能翻译出八种语言56种不同组合之间的对话。而且其网络底层技术所蕴含的功能不仅仅只有翻译。你想看到一个令人难以置信地,甚至魔法般地有用的bot吗?微软正在对其软件实时记录商务会议和生产文本进行贝塔测试。该软件同样能对一个两人访谈进行录音,生成文本并对不同的说话者进行区分——也许所有古往今来的记者都曾渴望过拥有此产品。
“当我们第一次着手研发Skype翻译器,但其性能不佳时,我无法言明我们当时到底有多丧气。”Peter Lee说:“但现在,我们勇攀高峰,我们拥有了这些语音和翻译模型,特别是语音模型太他妈棒了!”
Clippy的复仇
与此同时,微软将人工智能资源嵌入到其最大的几项专营平台上:Windows和Office。人工智能的未来希望之一是预测用户的需求——这也是谷歌即刻(Google Now)的基本理念,一旦你解锁手机,就能接受到交通、天气和体育比赛结果。
微软致力于将此种人工智能嵌入到桌面应用之中。负责Cortana开发的Marcus Ash向我们展示了一款模型版本的Windows,它使用大量以云为基础的推论,能推论出用户所想要获悉的信息。当Ash打开开始菜单,Cortana立刻跳出来显示了一堆建议内容:对你有意义的名字,你最近打开过的文档,常见法语单词的翻译(该用户即将开启一段法国之旅)。得到用户允许之后,Cortana能将用户的联系人信息、搜索历史以及软件使用历史纳入到推荐内容之中。
这种人工智能不像普通的人工智能那样炫酷地预测你的每项需求,但是,它已出现。
一天之中,随着时间的变化,推荐内容也会发生变化——例如,软件开发者设置好什么信息在早晨有用、什么信息在午餐前后有用。“在得到你的允许的情况下,使用对话和语境信息的理念,会让你变得更高效,让你感觉你处于自己的控制之下,这也是我们真正感到兴奋的地方,”Ash说:“微软用户的许多数字化体验都是围绕简化、消除摩擦以及真正展现人工智能的力量来进行的。”
Ash最喜欢举的一个例子叫做“事项(commitments)”。你老板让你在下周之前发给她一些东西,Outlook得到你的允许之后能将此记录在案,然后在你忘记回复时自动提醒你。“我的生活诸事繁多,容易遗忘一些事宜,特别是邮件回复,”Ash告诉我们,他最近忘记回复顶头上司了,但是Cortana及时提醒了他。
微软Office全球市场副总裁Kirk Koenigsbauer向我们展示了更多的人工智能应用。Office得益于人工智能的多方位嵌入而变得更易用。2014年12月,微软推出了应用软件Delve,这是一款包含了Office 365的类Fitbit效率追踪器。Delve能分析出你花费在邮件和会议上的时间,并在日历上突出显示你为了做更复杂重要的工作而需要的延长时间。Delve还会告知你,有多少人实际阅读了你发送的邮件以及阅读该邮件的时间。Delve会提醒你联系还未收到邮件的同事,甚至显示所有往来邮件的回复时间。
如果你的公司像硅谷的许多大公司一样,将组织架构建立在谷歌软件之上,那么浏览使用Delve就像一种“显身”。你无需像呆子一样到处搜刮有用的信息。如果你是一位管理者,Delve将一目了然地显示,在过去一周内,你花费在每位员工身上的时间。这种人工智能不像普通的人工智能那样炫酷地预测你的每项需求,但是,它已出现,它运行良好,它使得谷歌软件相比之下看起来像处于没获重视的停滞状态。
寻找杀手锏机器人六个月以来,我仍然大体上对此概念保持乐观。它们所主导的交互行为比1-800号码和它们最终会取代从而被遗忘的小商业网站的内容更丰富。但是许多像Facebook Messenger和Telegram这样的应用软件也让我失望不已:就操作互联网而言,它们时常慢如牛。许多应用软件仅仅比运行在AOL Instant Messenger上的智慧孩童年代(SmarterChild-era)bots的功能更强大一点,仍然需要用户对着按钮图形软件界面喊叫以输入信息。到目前为止,围绕机器人和人工智能的讨论仍然是由工业对高利润新平台的渴望来驱动,而不是来自消费者对服务的需求。
但当机器人在后台运行工作时,还是会给人一点点魔幻的感觉。
到目前为止,其他公司对此问题的答复基本上都是“他们正致力于研究”。今年五月,我拿此问题询问了Facebook的技术总监Mike Schroepfer,他表示:“人们认为人工智能像大多数高科技一样,今天应该已经足够发达。但其实,还有许多技术要去开发、许多工作需要去完成。我认为,人工智能会逐月逐年改进。”
这次对微软的参观,让外界开始质疑我们是否是在以一种错误的方式思考人工智能。聊天界面一般都很单调乏味。但是给予其动力、已经应用到所有工具中的机器学习却真的已经非常强大了。如果微软能将类似Delve的人工智能应用到更广泛的服务应用程序中,可以说,将会为世界提供最强有力的效率套装。即使出现大量聊天机器人驱动平台的愿景不会实现,这里面也蕴含着巨大的价值。在在目前人工智能的早期阶段,处于瞩目位置的机器人经常让人沮丧——实在是太蠢笨了。但当机器人在后台运行工作时,还是会给人一点点魔幻的感觉。