【techweb】创新工场创始人及首席执行官李开复的新书《ai·未来》将于9月2日上市。techweb获得授权,在新书上市前,抢先摘录出书中部分内容分享给读者。
在新书《ai·未来》中,李开复凭借对全球科技业与人工智能行业的深入了解,为读者描绘了人工智能新世界的样貌、未来人工智能对社会的冲击以及在人工智能时代我们的应对策略。
《ai·未来》中,李开复将人工智能革命分为四波浪潮:互联网智能化(internet ai)、商业智能化(business ai)、实体世界智能化(perception ai)、自主智能化(autonomous ai)。
前两波浪潮——互联网智能化及商业智能化——已经出现在了我们身边,互联网公司能以算法取代保险精算师、股票交易经理和医生助理。现在,感知人工智能正在把现实世界数字化,机器开始学习辨识我们的脸孔, 识别我们身边的物体与语音,理解我们的需求,搞懂我们身边的世界。第三波浪潮将彻底改变我们和世界之间的互动体验以及模糊数字世界和现实世界之间的分界。随着自动驾驶汽车的上路、无人机的飞天,智能机器人接管工厂,第四波浪潮——自主人工智能将进一步改变农业、交通、连锁餐饮等众多领域。
李开复拥有美国卡内基梅隆大学计算机学博士学位,2017年,李开复推出《人工智能:李开复谈ai如何重塑个人、商业与社会的未来图谱》一书。
以下内容节选自李开复新书《ai·未来》第五章:
第二波浪潮:商业智能化
第一波人工智能浪潮的基础是给互联网用户的浏览数据贴标签,而商用人工智能则是给传统公司数十年来积累的大量专业数据贴标签,如保险公司理赔事故中鉴别保险欺诈,银行核发贷款时记录还款率,医院保存医疗诊断记录及患者存活率等。这些活动产生了大量带有标签,即自带特征及含义的数据。但直到最近才有部分传统公司找到方法,更有效地利用这些数据。
商用人工智能从这些数据库中挖掘人类往往会忽视的隐性联系,参考以往的决策与结果,利用贴了标签的数据训练算法,最终使其超越经验最丰富的人类从业者。这是因为人类通常根据强特征(strong features)来做出预测,而与结果高度相关的数据,通常是直接的因果关系。例如在预测患糖尿病的可能性时,此人的身体质量指数(bmi)是强特征。而人工智能算法除了会把这些强特征纳入考虑,同时也不放过其他的弱特征(weak features)——这些数据点可能表面上和特定结果无关联性,但是把数千万个例子结合起来后,可以发现一些对预测结果有帮助的重要联系。这些细微的关联性往往没人能解释清因果,例如为何在星期三取得贷款的借款人往往能较快地偿还贷款。但是,使用人脑难以理解的复杂数学关系,把许多强特征和弱特征结合起来的算法,能在许多商业分析工作上胜过技术顶尖的人类。
商用人工智能事业
早在2004年,帕兰提尔(palantir)及ibm沃森等公司就已经为企业与政府提供大数据分析服务。那个时期的商用人工智能应用高度集中在金融业等少数几个靠高度结构化信息运作的产业。“结构化”的意思是已分类、贴上
标签、可搜索的数据,最典型的就是股价历史信息、信用卡使用记录等。这类产业有明确的优化指标,与人工智能天生契合。
因此,传统产业发达的美国在早期的商用人工智能应用领域建立了强势的领先地位。大型美国企业收集了大量数据,设计了良好的储存结构。它们常使用会计、存货管理及顾客关系管理等领域的企业软件。有了这样结构化的数据,如帕兰提尔这样的数据分析公司可以很容易地将人工智能商用,帮助传统公司优化现有数据库,更好地识别欺诈、更明智地进行交易、发现供应链上缺乏效率的环节,使得企业进一步节约成本,利润最大化。
中国的企业大多使用自己特有的系统来保存数据,从未真正接纳企业软件或标准化的数据储存。这些系统无法扩展,难以和现有的企业软件整合, 数据的整理与结构化非常困难。无结构的数据导致使用人工智能优化后的结果不甚理想。另外,中国公司在雇用第三方顾问服务方面的支出远少于美国公司。中国许多传统企业的经营模式和企业文化仍然像个体经营而不是现代企业组织,它们认为不值得在第三方的专业服务上花钱。
到了2013年,深度学习技术的应用大大提高了服务水平,市场上出现了新的竞争者,如加拿大的element ai、中国的商用人工智能公司第四范式。
炒掉银行客户经理
中国大部分传统企业普遍存在数据尚未结构化、企业文化老旧等现象, 使其难以在第二波人工智能时期享受技术红利。但一些能够直接接入商用人工智能的产业在大步前进,小微金融就是其中最有前景的一个产业。过去中国的金融服务业以人力为主,小微金融产业成为直接采用尖端人工智能应用的一块跳板。
微信和支付宝可以让你直接从银行账户转账付款,但它们的核心服务无法让你在收入到账之前,稍微透支一部分。这是因为当金融服务商越过信用卡直接进入移动支付时,无法同步利用信用卡发行商的信用数据。面对这样的问题,智融集团(smart finance)研发的人工智能应用填补了这块空白, 它只依赖算法,就可以评估贷款的风险,并做出比人精确的判断。它不要求申请人填写收入水平,只要求用户同意发贷方从他们的手机上取得一些数据。这些数据就像申请人的数字指纹,能够以相当高的准确度预测他们有没有能力偿还1万元的小额贷款。智融的深度学习算法不只看明显的指标,如用户的微信钱包里有多少钱,它也根据一般银行贷款审核人员认为无关紧要的数据点来做出分析,如用户输入出生日期的速度、手机电池还剩多少电量以及数以千计的其他数据。贷款申请人的手机还有多少电量跟他们的信用有关系吗?这两者间不是“因为……所以……”的因果关系,而是因为人类难以识别的海量数据中隐藏着关联性,这正是人工智能擅长的领域。智融用数百万笔贷款数据来训练算法,这些贷款有些偿还了,有些则没有,发掘了和信用相关的数千个弱特征。智融集团创始人兼ceo焦可把这些不寻常的指标形容为审核放款时的“新审美标准”[1],取代了个人征信之类的传统标准。
不断增加的海量数据使算法不断优化,也使智融能够将信用服务延伸至那些向来被传统银行忽视的人群,如低收入年轻人及外来务工人员。智融集团的人工智能算法,预测违约率低至个位数。这一数字让传统银行叹为观止。
请到算法诊所就诊
商用人工智能并非只能用在跟钱有关的领域,它同样可以用在数据驱动的公共服务上,让许多之前负担不起这些服务的人享受科技带来的红利,促成高质量服务大规模推广。这方面,最具前景的领域之一是医疗诊断。美国的顶尖研究人员如吴恩达和塞巴斯蒂安·特伦,已经展示了一些依据影像在诊断某些疾病时媲美专业医生的一流算法,如根据胸部x光片来诊断肺炎,根据照片来诊断皮肤癌等。不过,医疗领域商用人工智能的更广泛应用,将有望处理多种疾病的整个诊断流程。
目前,拥有专业医学知识以及能为患者做出正确诊断的人仍然以少数专业人士为主,但他们精力有限,记忆力也不能支持他们记住所有的病例与治疗方法,一流的医疗服务仍然由为数不多且资金充裕的医疗机构提供。互联网上虽然散布着海量的医学信息,但并不是以大众能够理解的形式存在。在人口众多、医疗资源相对紧张的中国,训练有素的医生大多集中在大城市的一流医院,在偏远的城镇或乡村,医疗资源并不是很丰富。因此,中国各地的病患总是想尽办法到北京、上海的大医院看病,哪怕需要等很多天。这让大医院本就有限的资源更加紧张。
第二波人工智能浪潮有望改变这一切。疾病诊断涉及的数据(如症状、医疗史、环境因素等)以及从与这些数据有关的现象(如某种疾病)中寻找关联性并做出预测,这些工作正是深度学习擅长的。有了足够的数据——精准的医疗记录,由人工智能驱动的诊断工具能够把一般水平的医疗专业人员变成处理过数千万个病例的超级医生,还能发现患者症状数据之间隐藏的关联性,同时还有完美的记忆力。
曾经在硅谷及百度从事深度学习工作的中国人工智能研究人员邓侃,创立了大数医达科技公司,该公司研发了专门训练医疗领域的人工智能算法,使它们成为能够部署在全国各地的超级诊断师。它们并不想用算法取代医生,而是要辅助医生诊断。算法在诊断流程中扮演“导航”的角色,用大数据规划最佳路径,但人类医生会主导最终的判断。诊断的范围随着算法得到的信息增加而缩小,这时更详细、高度确定的数据可以帮助判断症状的起因,以及其他诊断结果的正确性及患病概率。这款应用给医生的建议,是依靠其超过4亿条医疗记录(并且还在持续扫描最新医学文献)的数据,把全球顶尖医学知识平均分配在医疗资源不均衡的社会中,让所有医生和护士都能聚焦在机器做不到的人类工作上,如使病患感受到关怀,更人性化地和病患分享诊断结果。
看不见的法庭助手
科大讯飞率先把人工智能应用在另一个资源和能力分布高度不均的领域——司法界。在上海进行的试点中,科大讯飞使用以往案例数据,向法官提出有关证据及判决的建议。该公司开发的证据交互参照系统,使用语音识别与自然语言处理技术来比较所有证据,如证词、文件及背景资料等,并找出其中的矛盾点,同时提醒法官注意这些有争议的地方,让法院审理人员可以进一步核实。量刑时,法官可以把被告的犯罪记录、年龄、造成的伤害等相关信息输入判决辅助人工智能系统。该系统存储了大量的判决记录,可以从类似案例中做出有关量刑或罚款的建议。接受人工智能应用提供的信息, 可以在十万余名法官中建立一致性,也可以约束不走寻常路的法官。美国的一些法庭也会使用类似的算法,对提请假释的犯人进行风险评估。不过,这类人工智能工具扮演的角色及其本身的缺乏透明性等缺陷,在美国高等法院遭到了质疑。
跟大数医达科技公司的医生“导航”一样,科大讯飞的司法人工智能工具也是用来辅助专业人员做出更佳决策,而非取代专业人员。人工智能系统为法官提供数据导向的建议,帮助维持司法公正,纠正一些就连经验丰富的法官都无法避免的偏见。美国的法律学者的研究表明,受害人及被告所属的种族,对美国法院判刑的影响非常明显,而司法偏见往往更不引人注意。一项针对以色列法官所做的研究结果显示,这些法官在午餐前做出的判决比较严厉,在饱餐一顿后,他们在裁决假释时则较为宽容。[1]
谁能取得领先地位?
那么,在人工智能应用更广泛的商用人工智能领域,哪一个国家处于领先地位呢?在今天无疑是美国。美国的公司有应用商用人工智能的原材料和意愿,因此在见效快、最有利可图的银行业、保险业以及其他任何拥有大量结构化数据、可供人工智能进一步优化的产业上具有明显优势。相对来说中国传统企业对人工智能的应用不是很到位,但中国现有的金融体制和分布不均的医疗卫生资源是重构消费者信用和医疗等服务的关键所在。商用人工智能可以把这些弱点转化为优势,彻底重构这些产业。所以,我认为5年内中国能够缩小差距,而且有机会让商用人工智能发展出更多有效的应用。
第二波人工智能的应用对现实世界有直接影响,但算法本身处理的对象仍然是由人类行为形成的数据。但第三波人工智能改变了这一点,赋予了人工智能最宝贵的信息收集工具——眼睛与耳朵。