飞刀又见飞刀-盛宴的尾声

这一篇本来应当是对今年头三个月文章的回顾。 打算整理文章时, 看到自己网站上那个3d打印系列的遗迹。加上昨天和某同学的聊天。 不禁想再扯一遍当年自己玩3d打印的经历,以及从中可以引发的思考或者再思考。现代社会节奏之快, 没过两年, 已有白头宫女在,闲坐说玄宗的感觉。
一篇文章要有历史感, 应当从源头说起。 3d打印或者说增材制造, 源头在上个世纪80年代。 应当说这个技术是在计算机成熟应用到制造行业之后, 自然而然出现的。在那个年代的计算机普及狂潮推动下, 设计行业大范围的开始使用计算机辅助设计CAD, 把原来纸上画模型的过程, 变成了计算机里的数字模型。 伴随而生的又有所谓CAM, 计算机辅助制造,当时的含义是用计算机控制过去要人工控制的机床,自动完成零件的加工和制造。 这两类技术在现在已经是生产环节的标配, 早已成熟到大家已经不提什么计算机辅助了,因为没有不用计算机辅助的。用计算机控制机床是相当麻烦的, 传统的零件加工过程是拿一个金属大疙瘩(通常是铸出来的), 用各种刀、砂上去削魔, 车,钻,铣,磨。 要加工,要考虑怎么固定零件,要考虑怎么下刀, 一不留神,刀毁件亡。然而3d打印所谓增材制造, 是把这个过程反过来, 从零开始变出这个零件。 我们都知道, 无数点构成了线,无数线构成面,无数面构成了3维物体。 这个过程就是增材制造的过程。

而增材制造特别是FDM这项具体技术的发明, 又可以归功于一个人, 斯科特,克朗普(Scott Crump)。克朗普早年学习机械工程,在UW读的本科,UCLA读硕士。 毕业以后长期从事机械行业工作。曾经参与创立过一个压力传感器公司。大约在1989年, 和老婆一起创立了第一个也是直到今天都是行业内最大公司的stratasys。

传说中,克朗普发明3d打印或者说FDM, 是因为女儿想要一只青蛙, 于是他找了一个塑料胶枪, 手工给女儿挤出来了一个塑料青蛙。 挤青蛙的过程就是前面说的点,线,面,体, 一点点, 一层层的来。 在挤青蛙的时候克朗普或许在想, 这样能挤出青蛙,也一样能挤出别的什么东西。 然而同样的技术,我为什么不弄点更有意义的玩意呢?于是他和老婆商量,在征得同意后用1万多美元(当时是一大笔钱)买了一台工作站,加上自己年在机械行业积累的本事,潜心研究如何能直接吧电脑里的3d模型变成实物。 其实说白了就是一支可以在三维空间x,y,z轴运动的胶枪, 可以一层一层的挤出各种各样的模型。

Stratasys成立以后, 克朗普为了搞研发, 卖掉了所有的家产, 折合二十几万美元用来创业。 并且做出了第一台标价13万美元的原型机。 然而这台机器一时没有找到买主(当时大家都不明白这是什么, 找到肯花这么大钱的人一定不容易)。克朗普意识到他需要更多的钱, 于是找了一家风投, 把35%的公司股份,作价120万美元卖给了Battery Venture。Battery Venture 是技术风投界恐龙级别的公司, 现在已经是第11轮了。公司投资的历史上是一长串明星公司apple,intel,yahoo, google等等。在这个表单里可能 stratasys 还列不到前面三十位。

克朗普拿到投资以后, 又熬了2年多, 才推出了公司第一个成功产品, 第一台FDM打印机3d modeler。 这台机器终于可以在市场上销售了,公司也可以活下去。此后20年,克朗普的夫妻店一直掌控着公司的发展, 90年代,00年代风起云涌的二十年, startasys 1994年上市成功。 随后又收购了IBM的快速成型专利和一个十几个人的工程师小组, 巩固了自己在FDM这个胶枪行业的领先地位。

时钟一下子就翻到了2007年, 英国的巴斯(bath)大学,有一个教授,安得伦.暴牙(Adrian Bowyer)发起成立了Reprap开源组织, 力推3d打印或者说FDM的制造。巴斯大学的机械制造在英国和全球都享有盛誉。暴牙教授当然也是业内顶级人物。他成立reprap组织的公开信念是要最终完成机器可以自己造机器的梦想。 我个人理解是他对当时stratasys把一个塑料胶枪卖到几万美元十分不满,因为自己专业的学生经常会借助这类机器做些模型,学校就要被stratasys痛宰一刀,凭啥卖那么贵? 理应自己动手,搞一个开源项目。

(暴牙教授和第一代reprap)

在2007年, 想控制一个塑料胶枪在3维空间运动比克朗普的年代可容易多了。 然而也不是想象中那么简单, 因为材料的融合是个动态过程, 塑料的挤出要和胶枪的运动配合好, 一层一层能做出要人满意的结构, 需要足够的精度, 合适的温度, 适当的材料。 特别是要有能够处理3d模型把它变成胶枪运动轨迹的软件。 这一切在当时都还是零。

借助精力充沛,无处发泄只好搞创造的大学生和开源群体Reprap一代一代迭代自己的软硬件, 而到了2009年, 暴牙教授的得意门生,  Zach Smith , 软件工程师Adam Mayer,  和一个美国创客, 同时还在西雅图公立学校当老师的Bred Pettis聚在一起, 成立了3d打印史上风云一时的Makerbot公司。三人组合里, Adam Mayer负责软件和日常管理, zach smich负责技术, Bred pettis负责市场和销售。

(makerbot三个创始人, 左起,Bred Pettis, Zach Smich 和 Adam Mayer)

在2009年, reprap社区已经用金属轴,丝杠造出了可以工作的原型。 然而开源社区的通病是用户体验不好。 Geek们愿意钻研技术, 却不肯做一些能让自己的东西被大众接受的无聊事情。 这个把产品推给大众的机会就留给了makerbot。 借助开源reprap社区提供的软件, makerbot自行设计利用复合板激光切割拼接的结构搭建的更像商业成品的机器。 并在随后推出了第一代成品cupcake cnc。

我曾经在2010年1月的ces上看到过他们三个展出这台机器。ces展出有很多厅, 除了通常被大厂名牌占据的几个主厅之外, 在一些角落,或者主厅楼上还有一些便宜位置留给五花八门的创业公司。 makerbot当时就有一张小桌, 摆着自己的cupcake在现场打印。 我当时就很感兴趣, 跟pitts聊天。他说他们的产品可以邮购, 999美元, 但是排队的人太多, 就是你现场给钱, 估计也要6月才能收到货。 当时还没有所谓众筹网站, 等半年实在有点等不起, 加上当时第一代产品的现场打印质量也实在差强人意, 于是就此作罢。

自2010年ces首秀之后, Makerbot的第二代产品Thing-O-Matic在2010年9月发布, 并在随后的ces大获成功。这个奇怪的名字是因为机器上有个自动传输带的设计0-matic 意指automatic, 可以一次批量生产一批零件。

这里要解释一下, fdm类型的3d打印最恼人的问题就是要打好第一层, 因为第一层涉计到塑料胶枪头运动轨迹和打印平台的相对三维位置, 当机器搭建精度不够时,误差都累计在这里。 同时第一层还需要合适的材料让挤出来的塑料能够牢固贴服的粘在支撑板上。 为此有各种各样的办法, 包括在thing-o-matic开始引入的加热平台。 另外一个问题是fdm的耗时很长, 一下就是好几个小时, 甚至一天, 人不可能在旁边一直盯着。 而随便做个什么,通常是要一次做几个东西, 如果想缩短这个过程,最好能自动连续打印。 这需要把打好的东西从平台上拿走。 减少那种让人设个闹钟,等半夜打完时爬起来换零件的苦恼。 thing-o-matic为此设计了一个卷动的平面,东西打印完,一卷动,就可以把打好的移除, 自动开始打下一个。

然而理想很丰满,现实很骨感。 想批量打印的理想和牢固打印第一层本身是冲突的。第一层打不好, 如果机器不停下来,那就是一场灾难。 所以thing-o-matic这个设计实际上是失败的。 没学会走路之前不要跑。 thing-o-matic因为全开源设计, 和详细的安装指导文档, 是国内开始流行3d打印概念之后, 各个3d打印创业公司仿制最多的一台, 我自己也有一个仿制板。然而国内仿制时基本都拿掉了这个自动传输带的设计。 我曾经尝试过自己添加, 试过各种卷动材料之后, 发现还是不搞为好。

一个不成熟的设计, 能放在卖出的商品上,这是开源社区产品的特点。 好在这个设计本身不是大事, 把它拿掉不用就好了。2011年9月makerbot推出了第三代机器, 可以说这一类机器里最成功的设计replicator。这个机器在国内被大量仿制, 直到今天在某宝一搜3d打印,最先跳出来的还是这一类。

replicator奠定了makerbot成功的基础, 然而也显出了不和谐的端倪。 因为thing-o-matic被大量山寨, makerbot在replicator上有所保留, 包括电路版设计和固件。 给山寨厂制造了小小的困难。 但是这样的做法跟开源精神是违背的, replicator太成功, 以至于makerbot在02年9月发布的第四代产品replicator 2只是在此基础上做的小改进, 机器框架从木板变成了金属板, 还有一些提升打印质量的小变化。 上一代产品的成功,和本身的开源带来了严重的商业问题, replicator 2的新机器虽然更专业, 但是金属框架本身不能简单diy, 已经抛弃了开源群体。

早在replicator2发布之前, 2012年夏天makerbot就决定他们的新版打印平台软件不再开源。 这导致makerbot创始人的分裂。 还记得暴牙教授的得意门生Zach Smith吗? 他是makerbot技术研发的主心骨, 同时也是一个坚信开源的人。 replicator2基于商业的闭源决策让他十分伤心。 写过文章抱怨说:makerbot从开源社区里拿了那么多东西, 挣到了钱,不回馈社区他不不能接受,为此他要抗争。 抗争的结果当然是zach smith被扫地出门。 还有大约100多人随后离开。

技术负责人离开的影响不是立竿见影。 2013年反到是makerbot的巅峰之年, replicator/replicator  组合从diy市场上探到了准专业甚至专业市场。 看上去就像是商业领域里经典的颠覆性创新理论的样本。而stratasys这种占领专业市场卖高价产品获取超额利润的恐龙公司正是被颠覆的对象。 于是心急火燎的3d打印发明人stratasys出手用4亿美元收购了makerbot。 Bred Pitts 自然是赚的盆满钵满, 而一年前被扫地出门的zach smith分文未得。

技术负责人离开后恶果在一年之后才显现, 2013年makerbot推出第五代产品, 其中最大的改进是所谓智能挤出机。 挤出机就是那个塑料胶枪, 这是fdm打印的关键部件, 也是最容易出问题的地方, 因为各种原因很容易就会发生堵头现象。而没有反馈机制的机器还会傻乎乎的按照既定程序运行下去,打印出一场又一场悲剧。makerbot的初衷是好的, 让机器可以自动监控这个过程, 一旦有问题, 就停下来, 等人处理好问题后,还可以自己恢复, 不至于前功尽弃。

然而因为技术团队的动荡,这个所谓第五代的智能挤出机各种毛病不断, 所谓监控的结果, 就是监控到堵上然后罢工。 在makerbot用户论坛里能看到有人抱怨买回机器3个月,一个东西都没成功打出来。 这样的失败产品当然遭到了大面积的退货。 不知买了makerbot的克朗普是怎么滋味。 Bred Pitts当然也得负责, 拿着自己的臭钱滚的有多远就多远。2014年 Pitts不在当ceo。 不过这种滚蛋, 比没拿到臭钱就滚的zach smith可爽的太多。 2015年, makerbot几次大裁员,应当已经不剩什么人了,现在已经听不到什么声音。

开源和商业一直是一对矛盾体, 开源3d打印公司的领军地位交给了一家欧洲公司ultimaker。 ultimaker是国内山寨厂仿的第二多的机器, 他们仍然是坚持在完全开源, 只是开源通常是在机器卖出半年到一年内, 靠时间差和不断推出的新产品来存活。 这样做法未必符合商业原理,能坚持下来并不容易, 值得敬仰。

​3d打印的热潮已经散去, 媒体基本不再关注这个领域的进展。 stratasys并购了一大堆公司, 仍然处在行业的领先地位。 还有另外一个3d system公司也并购了一大堆公司,这最大的两个公司控制了大约1半市场, 基本上是双寡头局面。但这应当不是结局。

Gatner公司有个很著名的技术要经历hyper curve曲线发展的理论。 按照hyper curve,技术发展有积累期, 爆发期,消退期,和成熟期四个阶段。但是站在历史的长河中,这样的四个阶段可能有点简单, 真正的技术发展是复杂的, 大阶段里也有小阶段。总体的波折前进是常态。

(技术发展和媒体关注度曲线飞猪修改版)

金庸和古龙两个武侠大家, 最著名的小说都是三部曲。 金庸的是射雕,神雕, 倚天屠龙。古龙的是多情剑客无情剑, 边城浪子,和九月鹰飞。 多情剑客无情剑开创性的树立了“小李飞刀,例不虚发”的神话地位。 边城浪子和九月鹰飞里小李飞刀同时代的人物几乎都变成传说。 边城浪子主要是讲小李飞刀的徒弟叶开和阿飞第二傅红雪。九月鹰飞的主角是叶开和上官金虹的女儿。古龙已经在重复自己。到了所谓古龙口述的飞刀又见飞刀, 不是算不算古龙写的李坏再次重复了自己的祖先一遍。 第一次是正剧, 第二次是闹剧, 第三次是狗血连续剧。 飞刀又见飞刀还被拍成了一个比狗血更狗血的连续剧。

3d打印也是如此, 第一代技术的发明是正剧, 二十年后的开源消费产品,所谓可能的颠覆性创新,更像是一场闹剧。而国内的各路山寨,都可以归为狗血连续剧。

说了这么多,3d打印或者说增材制造本身并无问题。3d打印的核心优势是可以一视同仁对待简单和复杂, 打印一个实心立方体和一个复杂中空结构的发动机的时间是等价的。 能够充分利用这一点的地方就是3d打印的用武之地。 只是因为过度宣传, 公众把这件事情理解成了用肉打印一头猪出来。 期望之下当然是失望。

在3d打印退潮后,我那个blog不再更新。最后提到,是不是VR的春天来了? 然而VR的春天没有来,或者说如同帝都的春天一样十分短暂,还没感受到就结束了。然而别担心,人间春常在, 我们还有人工智能呢。

 

 

 

 

星星之火,可以燎原

今天是旧历三月初三。三月里草长莺飞,本该春光明媚。 夫子与弟子谈论人生志向,最同意的就是“暮春者,春服既成,冠者五六人,童子六七人,浴乎沂,风乎舞雩,咏而归”。能在三月里换上新衣服,郊游踏青,吃着火锅唱着歌,再下河洗个冷水澡,是多么自在的生活啊。 然而雾霾笼罩京城,抹杀此等念想。 只有打开净化器,坐在电脑前,用文字构筑想象世界。这次就乱弹几句创业。

创业如同立国。 历史上有两种立国, 一种是美国, 一种是中国。

美国的立国, 基本等同于开拓处女地。欧洲的旧势力随然也来掺合, 毕竟不是重点,倒完茶叶,再打响莱克星顿的枪声之后的创业史称不上特别艰难。 大西洋的距离浇灭了大英帝国的怒火,也消除了旧势力全力投入战争的欲望。 剩下的事情就是和不能成为对手的土著印第安人放对。 几乎等同于开拓处女地。

法国人托克维尔在考察过美国之后,写下了论美国的民主。对美国的制度表示了高度的赞赏, 认为无限接近他自己的理想社会, 这就是没有旧势力阻挡下开垦处女地的收益。 作为对照, 托克维尔讨论法国大革命的另一本书,前年曾经被国推的,旧制度与大革命就指出: 革命所破坏的一切(旧制度),都会在革命之后得到某种形式的恢复。历史是有很大惯性的 ,想变革并不容易。中国的立国是朝代的更替, 更象是法国。整个立国过程, 只能建立在与旧势力抗争的基础上。

所以创业有两种创业, 一种是开垦处女地, 从头开始建立规则。 比如互联网, 移动互联网, 实质上是构建了全新的互联互通的网络虚拟世界, 相对就轻松和容易。 最接近互联网的旧势力, 不过是笨拙的传统软硬件厂商和移动运营商。 因为虚拟世界与传统商业玩法超过一个大西洋的距离,这些旧势力会被 开垦处女地的公司轻松击败。又因为早期拓展空间比争夺空间更容易,创业公司也可以和谐共进。 这样的机会以后还有, 然而毕竟不多。需要生逢其时,不能人为选择。

另外一种, 就是日常创业面临的情况: 以技术为驱动力, 用新势力来取代旧势力。 在整个创业过程中, 面临的是于各种旧势力反扑, 不同路线新势力之间的纠缠。 艰难困苦,九死一生都是如此。

我党创业成功,获取全面胜利最终立国的历史, 也许可以作为借鉴。从一开始, 我党就是一个代表先进技术方向的党。 从北方引进的全套技术和成功经营案例, 让创业之初就与遍地的土匪革命不同。 在整个创业过程中, 这个先进技术总部都有不断的干预, 从初期的扶持,到中期的错误引导, 直到最后扎根于社会底层, 深知国情,懂市场,懂销售, 又能在理解新技术的基础上结合本土市场推出新民主主义土地革命等系列化产品的杰出产品经理掌控局面以后,终于全面占领了市场,直到今天。

回顾创业的关键节点, 有几次非常重要的转折, 最早的一次成功转折就是通过市场调研,理解认清市场现状, 从盲目乐观情绪指导下的城市暴动,转变思想到去农村建立革命根据地。

从小学习的中国革命史告诉我们, 在左倾盲动主义指引下, 南昌起义,广州起义等先后失败了。 而秋收起义, 百色起义等因为伟人指导的原因, 获得了成功。然而真实的历史并不是这样。

虽然伟大领袖调研市场后写出了中国社会各阶级分析这样的名作。 在之后的具体实践初期, 领袖仍然高估了自己的实力。 党史上在这一节语焉不详, 把秋收起义初期夺取长沙的错误路线推给了左倾的中央和湖南省委。事实上,在当时的时代背景下,中央的纸上谈兵军事家策划了全国各地的一系列起义。 秋收起义并无特别,只是其中一支。初期大家盲目乐观,以为一竖大旗,湖南各地就群起响应,然后就可以摧枯拉朽的夺取长沙。 然而很快就碰到了硬钉子, 可以说,风起云涌,几天功夫就不见了。剩下已经汇聚的主力大部队,在稀里糊涂的一个月后, 领袖才琢磨出了上井冈山的产品路线。

革命史上根据地路线和伟大的游击战争战术, 也并不是看上去那么美, 井冈山旧势力薄弱, 是因为实在是贫瘠, 本来就养活不了多少人。游击战更不能有效整合社会,获取资源,能够支持的力量只能少而精。 在收编了当地的土匪之后队伍就过大了,实际整编时裁剪了很多人, 比如有800多农军被劝退返乡。这些人在回乡时几乎一个不漏全遭杀害。

就在这种艰难困苦的时刻, 领袖写下了,星星之火,可以燎原的不朽名篇。分析形式, 批判了各种思潮,指出不能躲在山上, 要建立武装割据的路线。因为当时朱毛会师,整合了大部队之后, 井冈山上再也住不下这么多人,主力必须下山, 夺取赣南等相对富饶的地区。 扩大势力。

革命的火种传接下去, 尤其是扩张时, 一定要在旧势力在各自争斗,军阀混战的空窗期。 因为旧势力的主要目标不在这里。才有扩展的余地。 等到旧势力整合成功, 凯申调集主力开始第五次围剿时。 也许不管产品经理有没有提出正确产品路线,长征仍然是历史的宿命。

因为毕竟代表着前进的方向,革命的火种只要不断绝,就还有燎原的一天。  旧势力没有笑多久, 就来了日本人。(以下略去5千字)  获取了最后的胜利!

(全文完)

 

 

从表示到分布-有关深度学习记忆和效率的思考

三月是春天, 然而两会以后,北京的春天没有一个蓝天。 这一个星期都不见春日暖阳,最近两天是接连不断的冷雨。雨一直下,浇不灭人工智能大发展的火焰。因为当前全球经济滞涨,技术进步据说解决这个问题唯一救命稻草(还有战争)。 而眼前能看到的技术进步, 以第四次技术革命(人工智能)为甚 。之前的新能源和生物基因都被玩坏了。还能怎么样呢?深度学习作为这一波人工智能大潮的核心驱动力量, 已经被炒作的热的不能再热了。本文也在这个热点里继续掺和一下,来谈谈作者自己最近的思考。

成为热点的好处之一是资本聚集。资本就是钱, 金钱能带来的是眼球,因为媒体的呐喊助威, 不管你愿不愿意, 大家多多少少都知道了深度学习,是所谓很多很多层的神经网络, 知道了深度学习能下围棋赢世界冠军, 知道卷积神经网络识别图像能过人, 还知道这后面是凋参技能。

一种被更广泛宣传的观点是深度神经网络是个黑箱,首先要大规模收集数据, 然后开动大规模计算,再雇几个会凋参的博士, 网络就出来了。 所以要比拼深度学习哪家强,变成了那家数据强, 系统效率高,博士名声大。 这三项关键技里, 系统很复杂, 属于商业机密,一般不太好比较。雇博士可是手到擒来,于是博士们水涨船高。相关专业的刚毕业博士据在国内已经开到了百万年薪。而据(传)说领军人物的年薪则动辄是八位数字。是否真能值回票价,一时半会儿还看不出来。但是要玩尾巴摇狗(请自行搜索), 那是值得不能再值了。

再有就是看谁数据多,数据就是商业价值。算算数是投资人的核心技, 所以看数据收集了多少年,多少TB,有无专有的数据来源,  决定了公司就能值多少钱。

但是按照作者观点,真正推动深度神经网络或者人工智能的不断进步, 不能看有多少资金投入, 而要看有多少研究人员的深入思考。思想的深度决定事物的高度。 这是光注意短视的金钱涌动所永远不能触及的。

最近一段时间有关深度神经网络的研究工作, 最让人赞赏的还是deepmind。 从对创办人的访谈可知, deepmind一开始就志存高远, 一直想做类人智能,因此并不忙于凋参变现,常常对深度神经网络往往有独到的理解。比如最近就有一篇谈网络学习如何拥有记忆的话题。

有关学习和记忆, 从去年开始写文以来已经反复提过多次。总结之前的理解, 记忆并不是存储,而是一种计算, 是和学习过程紧密连接起来的,更关键的,记忆是一个动态和静态结合的过程。人都是边学边记得, 学会了,就记住了。

而当前神经网络学习和应用的过程是分开的, 一批数据进去, 网络学好,就拿去应用了。 应用的时候是固定的网络,当然也不存在学和忘。 而训练的过程,更是反其道而行之,所谓transfer learning迁移学习, 拿训练好的一个网络,给一个新的任务, 可以通过凋参很快适应那个新任务,之前的当然就忘掉了。

而Deepmind这篇文章,就试图解决这个所谓遗忘的问题。 他们通过找到深度学习网络对之前任务的最重要的部分,包括对应的连接结构和部分关键参数。在学新任务的时候有意识的保留这一部分,可以做到在学会新任务的同时, 并不丢弃做旧任务的能力。也就是所谓学会了不忘, 这样可以说网络就有了记忆。

网络有了记忆可以让人浮想联翩。 因为在现实应用中, 网络并不总是100%好使,总会碰到一些出错的例子。 这个时候就需要对网络做调整。而这个调整要做到结识新朋友,不忘老朋友。那么Deepmind这篇文章方法似乎就可以借鉴。

然而事物的发展通常不是水到渠成。这里面最大的问题,是这样的出错的例子, 实在太少 。众所周知,深度网络学习严重依赖大量的数据。如果只有几个样本就想学会,那就是大写的不可以! 怎么办, 一种思路是利用对坑式网络, GAN, 我用生成网络去生成一大堆近似样本呗。 这样可以吗? 有没有更直接的方法能让网络在小样本上高效率学习?

要回答这个问题,必须要打开深度网络的黑箱。其实deepmind有关网络记忆的那篇已经在试图在拆分黑箱了,需要把网络中重要的部分挑出来。 而打开黑箱,首先要理解深度学习网络到底是在做什么?所谓看问题的角度, 和可能影响了最终的成败。

传统的说法,深度学习网络,尤其是CNN, 学习的是一种从输入到输出的映射。把深度理解为一种函数拟合。 而多层网络, 因为引入了非线性, 不管多么复杂的函数映射,都可以拟合出来。 这在理论上是没有问题上, 然而在现实中这么玩,因为碰到非线性数学工具就不好使。 一下就玩不动了。没有数学理论指明方向,只好出动凋参大军,搞水漫金山或者瞎猫碰上死耗子战术。

可瞎猫总能逮到耗子, 这就不得不让人怀疑哪里出了问题。我们说,可能是思考问题的角度出了问题, 不能用映射来理解问题,那样就玩不下去, 要用统计的角度来理解。  而对于统计来说, 一切都只是分布而已。

我们都知道,这个世界是基于统计的, 因为世界是由一些基本粒子(现在分到了夸克)组成的。 每个粒子的性质都是一模一样的, 他们的相互作用一开始也不是特别复杂,基本都可以认为是线性的, 就算不是线性, 用泰勒展开一阶近似也差不到哪里去。而粒子的结构本身又是分层的,比如基本粒子组成了原子,原子构成了分子, 分子和分子之间有各种化学反应。 到原子还只有一百个,到分子简直有无穷多, 化学更是变换莫测。 复杂性一下就出来了。 所以三生万物, 三层网络就可以生成世界。当然这都属于胡说,别较真。理解基本思路是简单构成的复杂就对了。

神经网络比世界的基本粒子更简单, 通常情况下只有两种。 一种线性的,只做组合, 一种做简单的非线性映射。 我们说线性部分提供表示能力, 非线性部分构成复杂。每一层网络节点都只是把初始分布映射为边际分布。而每一层做线性映射的神经元张成线性子空间。神经网络就是用非线性映射联结线性子空间构成的高维空间来描述输入数据的分布。 因为每一个线性子空间提供了数据分布的边际分布,每一个线性子空间都是观察输入分布的一个窗口。 线性子空间的各种结构分析方法–线性代数和矩阵分析方法都可以得到应用。

用边际分布来表示最终的联合分布,就是朱松莼老师交给我们的云上打洞理论,而神经网络的效率,要看这些洞打的好不好, 最终取决于这些边际分布的熵的某种组合。

从概率分布的角度出发, 可以利用几何方法来研究。请参见顾险峰老师看穿机器学习的黑箱系列文章。学习所谓最优传输映射问题的凸几何解释。顾老师说逼近一个概率分布比学习一个映射容易的多。而逼近一个概率分布,解空间包含无穷多映射,构成一个无穷维李群。

期待这个方向的深入思考和理解能带来更多突破。最近给自家娃买了一本德国手绘百科全书,他看的津津有味。那本书每一页是一个主题,比如房子各种不同的样本,每一种只有一张图, 比如非洲的树屋,或者爱基斯摩人的雪屋。我相信他看过这张图片,如果下次有机会亲自见得树屋和雪屋,一定能认出来。深度学习也应该或者说必须做到这一点,大家试图理解无穷维李群过程中死掉的堆积如山的脑细胞才是值得的。

三生三世十年蛙声-乱弹自动驾驶

上周有一桩大案发生。我说的大案自然不是特警半夜出击,开着直升机奔波千里,擒拿巨贼于热被窝中,对这种类型感兴趣,请看今日说法。我说的是收购大案,intel花了150多亿美元收购mobileye。 mobileye大约是500人规模的一个中型公司, 150多亿美元相当于1千多亿人民币, 人均2个小目标。很多人质疑真的值那么多吗? 是不是买贵了。 intel为什么舍得下这么大本? 要知道intel是虽然最赚钱的it公司之一, 一年净利润大约110亿(市值最高的it公司,google大约200亿, facebook不到80亿,但是增长很快),买mobileye也谈不上轻松, 这个价格相当于intel一年半挣的钱。

这场收购案一出来,就嘘声四起。有人说mobileye不值那么多, 技术没什么了不起, 大中华做adas,自动驾驶的公司, 不以千记,也有上百, 分分钟追上mobileye云云(潜台词, 买我吧,买我吧,性价比无敌)。 到底mobileye值不值那么多? 本文回答不了这个问题, 只是作者一点浅薄的愚见。 胡乱说说对自动驾驶的现状和未来的理解。

首先要澄清基本概念, 大家说的是自动驾驶, 谈的未来也是自动驾驶, 花这么大价钱买的也是自动驾驶, 实际上市面上还没有自动驾驶。 只有辅助驾驶(ADAS)。 区分自动驾驶和辅助驾驶, 实际上有非常清楚的分类, 所谓自动驾驶的6个基本层级, 文抄公搬运如下:

L0 :驾驶员完全掌控车辆,无自动化。可能仅安装了一些预警技术,如前碰撞提醒(FCW)、侧偏提醒(LKW)等等

L1 :对方向盘和减速的单一任务提供一些辅助支持;主要包括自适应巡航控制(ACC)、自动紧急制动(AEB)、道路偏移回正(LKA)等。

L2 :自动系统能够完成某些场景下方向和减速的组合驾驶任务,可以部分自动化。L2的典型场景包括,低速堵车跟车、高速路上的快速行车和驾驶员在车内的自动泊车等。

L3 :又称有条件的自动驾驶,自动系统能通过监控环境接管所有驾驶任务,但驾驶员必须准备好重新取得驾驶控制权。驾驶者仍无法进行睡觉或者深度的休息。

L4 :自动系统在某些限定道路和环境下,能够完成驾驶任务;人可以不管了, 但是需要环境配合, 比如景区, 停车场之类的环境下完全可以无人操作。L4可以做一些道路和信号的配合。

L5 :自动系统在所有条件下都能完成的所有驾驶任务。

这样就可以分割清楚了, 自动驾驶是从L3开始的, 之前的都是辅助驾驶。 而对辅助驾驶, 从L1开始, 就需要介入车辆的控制, 如果只是嘀嘀嘀叫一叫, 给个提醒, 不管怎么嚷嚷, 都是L0, 无自动化。

而现在大家见到的最多的ADAS辅助驾驶系统, 所谓后装市场上那种只要是个行车记录仪宣称都带的, 都属于L0。 既然是L0, 自然要求就低, 也可以不负责任, 厂家就随意,做行车记录仪芯片方案的厂商请几个人稍带着就做了。 效果可想而知。通常情况下, 买了行车记录仪回家的人, 碰上这种所谓的辅助驾驶的行车记录仪, 第一件事情就是把它关掉。嘀嘀嘀的实在太烦人。 所谓劣币驱逐良币, 在行车记录仪上玩辅助驾驶, 为谁辛苦为谁甜?投资人都懂! 也不能说提醒没有价值, 只是在通用市场上价值实在有限。 某些专业市场,比如大货司机喜欢疲劳驾驶的, 能嘀嘀一下还是管用的,有专门做这个的公司, 比如径为视觉(替孙师弟安利一下,  看到要请我吃饭)。

如果要说对人真正有价值, 那就需要介入驾驶动作, 从L1开始,必须和车的控制联动, 这个不管操作多简单和基本,通常只能做前装了。L1和L2 的分别是前者是单一任务, 也就更简单。 Mobileye在这个市场上占统治地位,  Mobileye带自动紧急制动(AEB)和车道偏离预警(LDW)功能的前装系统供货价为200美元左右,占领了大约90%(未核实,请指正)的全球此类市场。 做到这两个功能主要就是检测前车和车道线。听上去不难,但是如果要做到接管控制的地步, mobileye给的标杆是:在各种条件下(全天候需求, 如果天气条件实在不合适,自己也得能判断出来, 会把自己关掉)起码要四个9的准确率,99.99%。

L2 就不仅仅是单一任务了, 可以是刹车和转向的组合, 比如volvo全系几乎都配备的跟车系统, 在车速很低时, 比如高速上堵车, 就可以打开, 车辆会自动跟着前车开, 碰到弯道也能沿着车道控制方向。 Tesla的高速自动驾驶, 比这个要强一些, 大概介于L2和L3之间,速度高了也能自动跟车。 这个市场, 目前也属于mobileye统治。 volvo用的,和tesla早先用到的都是mobileye。

从L3往上就属于自动驾驶了。 在这个层级, Tesla是最冒进的, 其实这个层级作为自动驾驶的过渡是很麻烦的。 不能完全指望自动驾驶, 但是又可以部分有效, 人可以适度走神,这个度不好把握。一旦自动驾驶认错了, 人通常是反映不过来的。 Tesla的几起中外车祸,都跟这个有关。 不知道Tesla的内部认定标准, 我个人理解是冒进了。 做新事物必须要小心又小心。 玩过头了, 就会象Magicleap一样变成骗子公司, 而且这个打击甚至会扩大到全行业。

反过来说, mobileye一直在稳扎稳打, mobileye的cto, Amnon Shashua, 在2016年cvpr上有一个公开演讲。讲自己的技术路线, 网上很容易搜到, 百度百家里有全文翻译, 非常建议大家仔细阅读。 可以看到, 要做自动驾驶, 需要, 传感器, 路(地图), 数据(算法)多方面的配合。 mobileye为此一直在做准备, 包括如何做地图表示, 如何收集数据等等。 Tesla一开始用的就是mobileye, 后来两者分手, 应当是节奏不匹配。 一个稳扎稳打的公司和一个拼速度的公司尿不到一壶里。 但是谁能笑到最后, 不太好说。

自动驾驶里L5 那种跟人一样开车的,我个人理解一旦做到就肯定会比人开的更好。 但这个实在是离的很远很远。 所以能够先期做起来的, 应当是L4, 在一些特定环境, 比如物流港, 景区, 或者某些城市区域在道路上做了配合施工的。 这个一定是自动驾驶先期的用武之地。 因为车辆和路都是定制化, 甚至不一定是公共道路, 所以条条框框也小。 也不一定非要找整车厂, 主动权更多。 但是说的容易做起来难, 要做这个也不容易, 更多的是对要对特定行业需求有深入理解。 最后还要算成本收益的经济账。

L5一旦实现, 会对社会全行业有深刻的影响, 因为有了L5实际上汽车就变成了汽车人。前一阵网上有个笑话, 说自己的车,注册了滴滴账号(自动驾驶都联网),半夜出去偷偷拉活。 如果有了L5,这个就不是笑话了。 因此这个涉及到机器和人的关系, 社会伦理, 产权法律等等, 是一个可以单开的大话题。 但是为时尚早, 说这个都是空对空。

最后再谈两句技术相关。 首先是传感器, 要自动驾驶, 需要多传感器融合, 人开车, 需要两只眼和耳朵配合(自动驾驶很少提到用耳朵的, 不是做的人忽略了, 是目前的AI太傻,用不到)。其实有眼睛就够了, 人的眼睛如果类比光学传感器和镜头,那简直好到离谱, 在这么小的体积和功耗下, 做到了大范围变焦, 高分辨率, 宽动态, 自动动态范围调节等等做自动驾驶的摄像头必须要考虑的技术特性。

但是车比人大个, 车的眼睛不一定非要象人一样这么小巧, 可以多, 可以有不同的工作原理。 其中光学传感器还是必须的。 Mobileye的cto说的很明白, 要准确理解场景, 不能光有形状, 还有有纹理, 而获得纹理, 只有靠光学。 人眼通过立体视觉就可以获取形状。 但是自从马大卫(David Marr)快40年前就提出的视觉计算框架开始, 无数学者都为之付出过, 目前还是做不到光依赖两只眼的视差就能可靠提取形状。 因此需要雷达配合, 常用的雷达有两种, 毫米波雷达, 以及现在贵贵的也很大只的激光雷达(将来会便宜且小只)。其实传感器的需求不见得限于此, 声音, 热成像, 只要有用的,将来都可以用。 当然最终光学仍然是基础。

那么有这么多传感器, mobileye为什么长期还是一只眼(单镜头), 并不是人家笨, 是因为要处理传感器的那么多实时数据流, 需要高性能计算, 而计算都是要成本的。 对mobileye的任务(L1,L2),两只眼增加了很多成本, 并不增加很多性能得分。

拜摩尔定律所赐, 这个成本总是越来越低。 mobileye自己有硬件平台, 下一代eyeQ5标称传感器能接入40Gbps数据, 懂的人可以知道这个量级的数据意味这什么。

有了传感器的数据, 更重要的是算法, 说到算法, 当然不能不说深度学习。 很多人说深度学习万能, 可以黑盒子端到端, 这边传感器数据进去, 那边驾驶控制操作就可以出来。这在理论上是可行的, 但也只是在理论上。 对现在的深度学习网络来说, 臣妾做不到啊!深度学习网络是干什么的?mobileye的cto说, 啊!就是用来提取特征的。 至于后面怎么构建场景, 进行控制, 还得单玩, 不管你信不信, 反正我是信了。

技术讨论, 我不是干这行的, 只能浅尝即止。 八成属于胡说。

回到文章一开始mobileye值不值, 我说了一大堆的意思是比较值。 当然我大中华厂商不可气短, 奋起直追, 也就一年左右技术差距(某媒体语),是不是咱们也分分钟就搞个大新闻呢?我们师母已呆!

 

 

 

 

 

国家与军队-古代社会的军制变迁

最近有个电视剧大秦帝国突然就火起来了。 公号朋友圈里有各种评论文章。对这个剧的评论可谓泾渭分明,自带公知小清新属性的都是一致的攻击,左派又红又专都是力挺。也有人写文章说你们攻击的只是大秦帝国这个电视剧本身,而不是真正的大秦帝国历史。 碰巧我也在微信群里跟人就长平之战是不是坑杀了40万人有点小争论。 讨论人工智能的微信群里不能跑题说太多。 今天就在自己的地盘里多说两句, 作为一个民间历史爱好者, 这个题目又很大,说法不够严谨可能还有错误是必须的, 还请方家指正。

孙子兵法开篇就说, 兵者,国之大事,死生之地,存亡之道,不可不察也!来自生物学的研究曾经提到, 人是最为好斗的生物之一。特别是人类的争斗主要体现在团体和团体的争斗上, 从规模, 持续时间, 攻击对方的手段和策略等方面都可以说是在自然界独领风骚。说白了, 我们就是好打架, 而且因为打输了会很惨, 所以不得不打, 还得研究怎么才能打赢。

在系列文章中,我们曾经多次提过, 按照社会学或者说流行书籍人类简史的说法, 人类靠面对面交流建立起来的信任关系,或者朋友圈大致是150人的规模。 早期人类的原始部落包括尼安德特人, 人数都在这个规模上。后来人类通过自己发明的一些纯精神领域的符号来建立关系, 发展社会组织, 突破了这150人的生理限制。 这些所谓的精神符号包括, 图腾, 原始信仰, 宗教, 国家, 民族以至现代社会错综复杂的人际关系。 智人通过图腾和原始信仰组织起来, 可以多个150人群体联合行动, 就把身材更高大,也许更聪明的尼安德特人灭的渣都不剩。

这些精神符号一经发明, 人就被分隔在从属于这些符号范畴的一个个圈子里, 比如你信什么教, 是教里哪一派? 你是那国人, 那个省来的? 啊!原来是老乡, 两个陌生人就莫名的亲近。 而依赖精神符号的连接细思下来又是十分荒谬的。 一些教义上的差别甚至决定了一个国家的存废。 比如英国光荣革命, 很大程度上是克伦威尔带领的宗教狂信徒集结在国会的名义下,反对罗马教廷和教廷指定的国王-查理一世。随后英国王室复辟和所谓二次不流血的光荣革命也是在宗教的旗帜下进行。

军事也是同理, 一只军队集合起来, 如果大于150人的规模, 就要有所谓精神符号的连接来支撑。 比如是宗教的圣战士, 还是保家卫国的公民军队,还是团结在某个军事强人旗下。 军队一定要解决为何而战的问题, 才能有战斗力, 才能打仗。近现代社会,军队大致有两种:除了国家军队,主要就是雇佣兵。 雇佣兵是为钱,为财富而战。钱也是精神符号的一种。解决为什么而战,建立连接大家可以共同行动的精神符号过程, 属于政治范畴。 军队最终是政治的延伸, 这是理解军制变迁的基础。绕了一大套其实说的还是孙子兵法里开篇那几句话。

回到军事或者人类社会的历史,因为这是一个复杂系统, 复杂系统的演化呈现出混乱,突变的特性。 军事制度的演变往往看上去没有什么道理,都是突然出现的伟大人物个别英雄引导的看似个人的行为。 另一方面, 复杂系统的演化又呈现着某种周期性, 整体的制度结构在几个稳态之间轮回。 最后, 因为生存竞争的最大流原理,社会并不是原地转圈,而是向上发展的, 技术越来越先进,组织越来越复杂, 集聚的负熵也越来越多。以上几点归结起来就是事物发展螺旋上升,偶尔突变的一般演化规律。

扯了一通逻辑,建立了模型, 就可以把事实往上套了。  比如人类社会的一开始,早期原始部落是全民皆兵, 对应社会物质财富的分配也几乎是依照原始社会的平均分配。 这个时期,兵就是民,民就是兵, 一打仗就是全体出动, 战士在前, 家属随后, 打输了就大家一起完蛋, 因此战士作战都非常英勇。 中国历史的这个阶段大致是商以前, 没有太多文字记载。但是中国长期的战争对手, 那些草原上骑马的民族,大多都在这个社会发展阶段。 表现为一出动就是10万,几十万大军。 因为全族都要上阵嘛。但是中国历史上对这些草原民族斥之为野蛮人,一向看不起他们,也不肯仔细观察研究,留下来的记录不多。

西方罗马和高卢之战,因为凯撒的高卢战记,留下了相当丰富的记载。高卢人和罗马人冲突的起源,其实是高卢人因为气候变化要往更富饶的地方迁居,而这些地区因为气候适宜,已经先期有农业部落占领。 自然就发生冲突。 汉朝和匈奴打了几百年也是如此。 据凯撒记载,高卢部落达成要迁居的动议之后。会提前三年开始准备。 头两年全民动员,收集储备粮食, 买马造车。 两年准备期结束, 把所有能搬运的物资准备好, 就一把火烧掉自己的全部住处, 包括十二个城镇, 四百多个村庄, 还有所有带不走的东西, 破釜沉舟, 防止想回家的人中途退缩。然后带着够三个月吃的粮食,全民上路。

这支高卢人, 据记载一共有30万,其中9万2千人能拿起 武器作战, 几乎能出动全部人口的1/3 。面对如此庞大的军队和英勇的战士, 罗马军团数量上大大的不足, 自然无法正面作战。 凯撒先利用了诡计欺骗, 派人去谈判, 拖慢了高卢人进攻的节奏, 然后借着这个时间修筑了长19里的城墙和沟堑来堵路。 高卢人虽然人数多, 然而武器落后,特别是没有攻城的器械, 因此无法突破罗马人的防线,只好派出部队绕路。 而绕路不光行动缓慢,又给了罗马人集结军队的时间, 还需要过一条河,罗马人最后埋伏在渡口,玩了一把半渡而击。英勇作战的高卢战士无一逃走,几乎全部阵亡。 即便如此,高卢的大部队还在。 最后决定胜负的是他们带的粮食吃完了, 于是大军崩盘,四散逃走。出发了三十万,最后逃回去十万人。

罗马面对这些英勇的部落战士也不是无敌, 公元前105年在法国里昂城南, 面对大约15万日耳曼人(30万人的部落), 罗马十六个军团正面作战,一天之内全军覆没, 只有十人生还。

在原始社会部落制全民皆兵之后, 因为贫富严重分化, 社会分成了奴隶主和奴隶,奴隶主除了享受之外,还有义务作战, 这时候的军队规模就大大的缩小了, 全体人口中只有很少一部分比如构成罗马军团的公民,中国周朝的所谓国人才能构成军队。奴隶主或者贵族通过掌握先进的军事科技, 青铜器来压制没有青铜武器的野人。 当时因为青铜的数量有限, 也无法武装全民。

武王灭周之战,据说是周武王带领了八百诸侯,四万五千大军在牧野之战中战胜了纣王。 800诸侯才凑出了45000兵, 一家贡献50人, 可见那时候的军事动员能力比起部落兵大幅下降。 与此对应的, 逸周书记载, 周武王灭商,灭了99国,投降600余国, 斩首了十余万, 俘虏了三十多万人。灭了99国,就干掉了30-40万人(投降的总不能抓人家俘虏吧)。 一个所谓的国至少也得有3000-4000人。 3,4千人的部落派出50人的队伍, 这个动员率只比1%略强。

周朝一直到春秋时期都是主要靠贵族作战。春秋时的著名的战争比如退避三舍的城濮之战, 晋国的军队有兵车700乘,据后人考证当时的一乘连附属人员大约是30人, 因此当时的晋国军队大约2万人。城濮之战位列左传五战之一。随后的也是五战之一且选入中学课本里的崤之战,秦国出动的是偏师三百乘,大约1万人,最后全军覆没对秦国来说是极大的打击了。 当时的大国,所谓千乘之国, 全国的军队也就是几万人的规模。 类似的欧洲的希腊,罗马公民时期, 打仗也主要靠公民军团, 战争的规模通常不大。希腊有上万人就很了不起。罗马因为地盘大,疆域广, 需要的部队规模稍大一些,然而一共也就几十个军团, 一个满编罗马军团是4200人。罗马全国的军队总动员也就是十几万人规模。这对一个幅员辽阔的大国其实不太相称。 但是罗马能够控制如此广大的区域,主要靠船。 沿着地中海和入海河流的流域,罗马实际控制的只是水域的周边, 加上策略和武器的优势,这个军队数量已经足够保卫国家,这里就不展开了。

到了战国时期, 从魏国的武卒,到商鞅变法之后的秦国征兵制度,战争的规模一下就扩大了。当时一个国家也就几百万人口,战争规模动辄就是几十万人, 秦国对赵国, 坑杀了赵国四十万人,秦国这边是近六十万人。 秦国灭楚, 一开始派二十万人打不动,还被项燕反击。最后动员了全国之兵, 六十万人才最终成功。 可见当时的战争规模已经是几十万人。很多人说这个数字是吹牛, 这是对当时的军制不了解。贵族军队变成平民军队,征发种地的农民就是军队。 动员规摸就大大增加了。

这种农民就是兵, 兵就是农民的体制之所以出现,除了当时战争残酷, 贵族或者国人数量不够看以外, 更重要的是两个原因,一个是技术进展,出现了铁器, 铁矿的数量远比铜矿高, 可以武装更多的人。 另外一个是解决了为谁而战的问题。 国人制,公民兵,人人相对平等,大家为了保家卫国,为了荣誉而战。 商鞅变法,兵民一体, 打仗获得军功就可以分地,这样的兵为利益而战。 土地私有,可以父传子,打仗就有了更大的动力。打输了分的地的就没有啦, 也有了保家卫国的动机。为荣誉而战,和为利益而战这是驱动军队的两种方法,必居其一。为荣誉而战就要求社会尽量平等一些, 为利益而战就要求国家有钱可分。

因为要征服六国,秦兵作战一往无前, 加上严酷的纪律,批量化生产的制式武器比如弓箭, 秦军统一了中国。

然而秦朝在统一了国家之后,军功制不再起作用,国内的地分完了, 没有对外战争的战利品,不能分更多的地, 反而只有惩罚。 于是秦国变成了暴秦, 秦兵从特别能打变成了弱鸡。 秦军的两支主力, 一支去了岭南之后,带队将领看到秦国的形势,见死不救,塞绝道路,自立为王。 另外一支防守长城的队伍,先是因为带队的扶苏,蒙恬屈死, 逃散了一些, 后来剩下的也无心作战,在巨鹿投降了项羽, 最后被项羽坑杀。失去了作战目标的军队,人数再多,也只能任人宰割。

汉随秦制,汉朝先是内乱,后来一直跟长期和匈奴做战, 靠征发农民,军队也一直维持在一个较大的规模上。 汉朝有个有趣的陵邑制度。 就是每个皇帝或者的时候都要给自己修陵, 不光是修死后睡觉的地方, 每个陵的旁边都要修一座城, 然后迁全国的富户来此给皇帝守陵, 汉朝前期大家都是愿意来的, 因为首都经济发达生活好,还有授田。 后来这个制度就慢慢的执行不下去了,因为无田可授。

汉朝最盛的时代, 是汉宣帝。 与来自高中课本的印象不同, 历史上真正消除匈奴威胁的不是汉武帝, 是汉武帝的孙子汉宣帝。  汉宣帝时代,借着匈奴南北分裂的机会, 汉宣帝击破北匈奴, 招安了南匈奴, 一举消除了匈奴对汉朝的主要威胁。 当然并不是一举消灭了匈奴。 因为当时技术条件所限,种地的永远统治不了骑马的地区, 正确的做法只能是让他们自己统治自己。借受控制和约束,最好让他们信佛教,就像清朝做的那样。 汉宣帝之后匈奴虽然也惹事,还得派王昭君出塞去和亲, 但那些都是汉朝主动的行为,再也谈不上匈奴对大汉全国的威胁了。

汉宣帝时代,同时还击破了羌人,建立了西域都护府,大大拓展了统治区域。“犯强汉者,虽远必诛”这句名言就是当时的西域都护府头领陈汤说的。然而没了外敌,内部就开始腐败,各种制度都慢慢荒废了。 特别是征兵, 汉朝后期因为土地兼并, 建立在军功,授田基础上的征兵制就坚持不下去了。因为打仗成了苦差事, 光死人, 分不到地。  既然分不了地, 只能财帛动人心了。 西汉末年开始用雇佣兵。

雇佣兵为钱打仗,谁有钱跟谁, 作战意愿也不如分地的兵高, 动员能力全看国家聚财的能力。 这样东汉的兵就不如西汉的兵能打, 对外征战也从扩张变成收缩, 大地主们有地有钱, 自己也可以招自己的私兵, 也就是所谓的部曲和世兵。 这在之前的一国家的消亡文章里已经提到了。 至此之后, 军制虽然还有一次次轮回, 但是基本上国家的崩溃都是因为财政破产了。

今年是十月革命100周年, 网上应当会出现各种评论文章, 一篇有意思的文章:扬云飞:二月革命百年小记之谜一般的拉斯普京 提到, 俄国的农奴制度其实不是字面上那样, 而是一种合作社制度, 后来阴错阳差,搞了了12年一分地, 两次分地的时机,1905年, 1917年都发生过革命。 很多人都说我党的胜利也是因为土地革命,解放军解决了为谁而战的问题。

到了今天, AI时代, 虚拟现实世界的土地没有边界, 还会因为土地冲突而世界大战吗?所谓江山易改,本性难易, 这是谁也无法预期的啊。

 

To Be or Not To Be? 再谈人工智能芯片

转眼又是三月了。在一年里,三月总是和春天联系在一起。 春天里万物复苏, 发芽成长。正是思考新生事物的时机。 去年年底时, 曾经写过一篇有关人工智能芯片的文章, 那篇的文章的结论是除了语音已经看到些许应用的机会, 面向应用的其他行业可能都还得以GPU/DSP为主, 或者是借助FPGA。主要原因是算法性能不足, 而且在不断变化发展。三个月过后, 这里重新再回顾一下前文的结论, 看有没有需要修正的地方。

开宗名义, 有没有要修正的地方? 没有! 虽然语音已经看到了一些端倪, 但是要踩着dsp走过去, 还是要准确定位市场。 其他行业应用就更不用说了, 老老实实用GPU/DSP吧。 虽然业内在蠢蠢欲动, 可能今年会看到一堆所谓面向深度学习的芯片发布, 那估计也只是发布…而已。

这里有个大背景, 从去年开始,就有各种媒体都在放风, 中国进口的物资里, 芯片已经成了超过能源的最大一头。 对于中国这样的大国, 命根子捏在别人手里怎麼可以。 所以一定要自己造, 不造不舒服斯基。国家自然要在芯片领域大力投入。 中国的国家投入历来有个特点, 就是中央指挥棒一指, 就是方向就是政治正确。 各个地方诸侯都要玩了命的搞小猪赛跑。 中央花钱的人通常是很懂得, 钱也能花在点子上, (为了不被乱棍打死,必须这么写)。然而小猪们就不见得, 通常是人傻钱多速来, 于是这个行业开始泥沙俱下,无数牛鬼蛇神一言不合就要做芯片。 连做LED封装的也都成了先进IC产业。 傻钱不要怎么可以?

还真就是不可以。 虽然未来的事情谁也说不清。 但是动机很重要, 抱着做事的动机出发, 才有做成事的可能。 抱着有傻钱先弄到手的动机出发, 做事的思路就会错位,事情当然也不大可能做成。 最后基本都是一地鸡毛, 或者跑路, 或者吃官司的下场。 这里不是放话吓唬人,一言决生死, 没有那个本事, 只是通过观察历史,感受到这个技术和商业发展的复杂系统在不断重复自己…

那么如果非要做芯片, 又该是怎样一个思路呢? 我们可以看看国产做芯片的成功例子, 比如某思。 某思现在已经是当仁不让的国产芯片龙头企业。 某思虽然是背靠大树好成凉, 但在一些行业市场上也十分的给力。 比如安防行业, 某思借助国内安防市场发展的东风, 借着几个安防企业发展成了世界上最大的安防公司的机会, 也熬出了头,几个拳头产品都做到了有量能赚钱。 给个枣吃再打一棍子, 某思的问题是自己仍然不能引领方向, 做产品靠对标, 早期对标某霸,去年某霸流年不太利。 某达是当红炸子鸡, 又开始对标某达。 哎, 为什么靠对标, 是因为不掌握从预研技术到理解用户和市场两者结合定义产品的正确姿势啊。只有掌握了这一套, 才可以不靠对标,自己领路。 这句话说起来容易, 做起来难。

要想引领潮流。首先新技术要有积淀, 至少要有超前研究一代, 研发一代, 应用一代的结构。 可能有些人不同意, 那里需要搞那么花哨, 超前研究那种事情是要开研究院, 我就不搞, 你看苹果不就没有研究院吗?这个话题涉及到企业如何搞研究, 三言两语说不清楚。 总之搞研究基本属于试错, 而且很多时候试的是技术和应用领域的结合。 因此要超前一代。 研发一代, 应用一代, 车轱辘话不展开。

而对应用领域的结合, 需要对市场整体的结构, 产业链各个企业的态势和互动关系, 最终用户的动机和需求有全面的把握和理解。 如果搞新产品是开车, 需要同时做好两件事:技术是发动机驱动轮子, 理解用户和市场是方向盘。 如果没有发动机驱动轮子, 知道了方向也跑不起来。 如果没有知道怎么打方向盘的, 轮子转的再快也是随机游走, 只在一个车范围里绕圈子,同样跑不远。 要做好这些事情, 必须找对人,多投入,更重要的领导人可以转变思维, 在脑子里建立新事物发展的演化模型, 才可以把握时机。 都非一时之功。

以上说法全是务虚, 属于闲聊吹水, 我们找个实际的例子评估一下。 比如某米最近刚刚推出一款某果的芯片和用这个芯片早出的某c手机。 有关这个芯片的具体细节, 建议去看看知乎问答, 某米水军的考证(https://www.zhihu.com/question/56045568/answer/149060579) 。 虽然是一篇水军文,但里面有大量的比较, 可以看出某米做这款产品的思路。 还是靠…对标。

稍等,也不全是对标, 做soc可以理解为搭积木, 选定工艺制程, 定义性能指标(这一步最关键,用综合考虑技术和市场)然后找到对应IP, 再干一点连接的粗活。剩下就是各种调优。 然后就可以流片。 说起来好像容易, 有什么难的。 难在做系统的经验上。 各种know how 其实不容易。 行内有个笑话, 说某司对另外某公说我可以无偿把IC的核心知识产权给你, 大约1000万行代码, 某公忙说不了,不了, 我赶脚要弄清你这1000万行代码也得花100亿。 要不要100亿姑且不论, 总之系统规模一上去就麻烦。

依照水军的说法, 对某米的这款芯片的思路可以做如下总结:定义性能指标上是保守的(面向中端,最成熟的28nm制程在手机芯片上是落后了), 产品的规格是恰到好处的(可以流畅的打王者荣耀),有些小地方是突出的(比如什么高级货背光控制), 有些大地方是不知道能不能经得起考验的(比如isp)。

某米是有心杀贼, 然而各方面积淀欠缺。 有人说某米做芯片的某果团队是借船出海, 某芯的团队一开始合作后来被连锅端了,搞的某芯一肚子怨气。 这也是缺乏积淀导致的结果。

但从某果这个略显奇怪的名字也可以做一番推测。 某果为啥叫某果, 有人说某米起名字都是植物系, 比如软件界面叫某柚, 硬件芯片叫某果正常。 我觉得不正常, 植物系的太多了, 为毛要选个满是疙瘩又脏又硬的某果呢。 在人的大脑里有个某果体, 某果八成就是这么来的。 用大脑里的植物系称呼来命名植物系芯片当然是最恰当的。而起名字这么用心, 说明这是长跑不是短跑, 来日方长。

小米说完,再回到人工智能芯片。 同样的问题, 要做好这个, 要同时掌握技术和市场用户。 问自己两个问题, 有专有技术吗?理解市场和用户吗? 如果还有犹豫和怀疑那还是再等等。留得青山在,不怕没柴烧。别干人面桃花的事情。

AI相关的算法日新月异, 比如周志华老师最新的deep forest, 如果在大数据集上验证性能也极好, 那围绕BP训练过程做优化硬件的还不哭死。

文章写到这里已经又臭又长了, 好像啥也没说。 其实人生也类似, 大多经历, 都是又臭又长且没有结果的啊。

 

国家的消亡

最近几天北京的天气极好。空气通透, 阳光明媚,一白天从早到晚都是蓝天白云。 适合郊游,踏青,晒太阳。 然而这种令人意外的天气总是短暂。据说从周一起又要进入空气污染的循环。 北京的污染是人为,要看见蓝天可又得全凭老天, 看风向。 风向本身属于天气,这是一个复杂系统,无法预期,但是永远在循环。 正如本文想说的国家一样。

如果同意国家, 或者社会本身是一个复杂系统。 那就必须要同意未来不可预期。 路是要靠人走出来的, 所有所谓历史终结的观点都是跳大神。 那么除了摸着石头过河, 还有什么可说的吗? 有的,其实就是前文曾经谈过的周期律, 或者复杂系统运动发展总体呈现的某种螺旋上升的规律。

去年几个读书公号都曾经推过一本书, 国家为什么会失败,  这是MIT和哈佛的经济学教授写的,作者之一曾经有在非洲等穷困国家长期援助工作的经历, 因此书比一般的学术著作要接地气。

书的前半部分讨论制度的功效和社会经济的影响, 逻辑还算清楚。 书中把制度分为攫取型和包容型。主要取决于统治阶级对社会的互动。 攫取型社会的统治精英们只从社会中吸血而不回馈。为了维系自身的地位,就墨守成规,抵制一切改革和创新,整个社会是封闭守旧的。最终社会在从兴起到崩溃的状态中循环。 而所谓包容型的社会的统治阶级愿意通过分权来平衡社会矛盾, 整个社会对创新是一个鼓励开放的态度。这是全书的精华。 书中给出了真实反应非洲现状的大量事例。 非洲的统治阶级,独裁者们用从西方引入的现代技术和武器牢牢掌控国家,实行愚民政策,压制百姓,造成国家大部分人的贫穷。作为非洲专家,这是作者最擅长的,也是这本书无论如何都值得一读的原因。

然而后半部分各种举例又回到了MZ无敌, 独裁不好的二元思维。作者试图用这一套来解释中国(中文版有删减),把中国近30年的进步理解为攫取型政府迈向了包容。这只能当作是说相声了。为什么是说相声。是因为逻辑到这里就开始不严谨, 比如把前苏联定义为攫取型就无论如何也不能解释苏联曾经取得的成就。

其实造成这些问题的根本原因还是作者的思维模式, 试图用线性稳态的思维方式来解释一个复杂系统演化过程, 因此只能拆东墙补西墙,做一个裱糊匠, 似是而非的表象理论之下是各种矛盾和含糊。

应当怎么理解复杂系统的演化呢? 回顾历史, 人类社会发展的源动力仍然是生存竞争。按照人类简史的观点, 国家是人类得以组织起来的一种共同想象物。 其实在古代社会尤其是中国, 没有那么明确的民族和现代国家的观念。 然而人们仍然会被分割成各种国,也就是不同的统治集团。大家打来打去。那时候的打来打去是残酷的, 一旦军事失败, 就有可能被族灭。

在南北朝时期,曾经有叱咤风云的慕容家族,也就是金庸天龙八部里慕容复的祖先。慕容家出过慕容恪,慕容垂等著名的极其能打的人。在前秦失败以后,建立了前燕,后燕,南燕等一系列国家。 慕容家应当是白种人,史书上说他们肤白貌美,高鼻深目,都是白种人的典型特证。这个家族也以出美男而著称。刘裕在给东晋当军头没有自立为帝时,曾经打过一张对南燕也就是慕容家最后一国的灭国之战。慕容家战败投降当了俘虏。有人说慕容家的人天生最坏爱造反, 刘裕就把投降的几千皇族贵胄都扔进了黄河。史上著名的美男子家族到此绝种。当然天龙八部里的慕容复也长的好看,迷倒了表妹王语嫣。可能是乡间还有遗存。

社会的演化好坏归根结底要看军事斗争的结果。 精英们互相之间的竞争最后还是打打看。孙子兵法开篇就说,兵者,国之大事,死生之地,存亡之道,不可不察也。

人类简史说尼安德特人象慕容家一样高大俊美,可能脑容量更大,但是都是以靠血缘来维系的狩猎部落存在,没有发明各种图腾之类的共同想象物,部落之间不能联合协同,自由主义小确幸只是看上去很美。一旦遇上生存竞争,就被能够联合作战的智人灭的干干净净。

智人能够联合作战,是原始社会全民皆兵的时代。部落之间合纵连横打来打去,是为迁移,抢占最好的底盘。军事失败就被灭族。这种部落军队直到西方罗马时期,罗马和高卢之战还能看到, 高卢一打仗就是整个部落的迁移。男人在前面打仗,家属在后面跟着, 战士们都英勇奋战,因为输了就是死。然而仍然打不过诡计多端的凯撒带领的罗马军团。罗马军团在当时是公民兵,打仗对他们来说是获得土地和财富的手段,打起仗来也很英勇,加上组织和技术上的优势。7年战争据记载打败了300万高卢人,杀掉了100万,俘虏了100万,剩下100万逃走。 这样惊人的数字如果没弄错,只能用高卢人全民上阵来解释。

而罗马作为一个奴隶制国家,当时奴隶是不上阵的。 公民作为统治集团,在享受奴隶服务的同时,也要承担对内对外作战的义务。中国的商周时期也于此类似, 打仗的是贵族或者说国人, 打仗是靠精英的军队。

而到战国时期就不同了, 战国开始战斗激化,光靠贵族打架不够看。 于是开始武装乡下的野人上阵。 直到商鞅变法之后的秦国是这一阶段的巅峰,全国种地的农民都被组织起来,打仗的时候可以全面动员。 所以秦国最后的灭六国之战都是几十万对几十万人的大战, 长平一下就干掉了40万, 占赵国全部人口的十分之一还多。

从原始社会的全民皆兵,到商周的贵族兵, 到战国的全民皆兵是一个轮回。 能够玩全民皆兵, 其实是因为财富共享。秦制兵农合一, 秦兵能打, 除了纪律,还有动力。立军功不光能够当官,更重要的是能分地。 而土地是农业革命之后,工业革命之前唯一真正的财富。

汉朝随秦制, 一开始也是全民皆兵, 慢慢的就玩不起来了, 因为地分完了。 多吃多占的形成势力, 开始马太效应, 国家的控制力变弱, 大贵族的控制力变强, 到东汉三国, 大小地主都开始自己养自己的兵。 三国演义里曹操招兵买马,夏侯惇,曹洪,曹仁各个大将都是带队来投。当然到这个时候汉朝也就完蛋了。只有蜀汉仍然是全民皆兵, 因为蜀汉集团是外来户,有没收来的大量的地可以分。这也是为什么当时蜀国统共没几十万人,诸葛亮能带着一支近10万人的军队和曹魏正面作战。当然因为诸葛亮打了很长时间也打不赢,抢不到财富和土地,蜀汉在他死后就国力贫弱了。

全民皆兵,到贵族私兵再到分割出一拨人专门打仗的府兵,军户,历史走过一个个轮回。背后是土地面积,土地分配,  人口, 生产能力等等各种物质因素的制约。这些都最终都被总结为战场上的输赢,以及统治精英的存亡。

西方的历史其实也是类似的, 不同的一点是西方的商品经济比较发达,可以花钱招兵。比如瑞士现在风景独好,在当家是不长庄稼的苦寒之地。瑞士农民长期就靠当雇佣兵来谋生。瑞士雇佣兵在西方历史上也曾经大大有名, 并且被很多有钱的大贵族雇来做王室卫队这样的核心军事力量。穷贵族还雇不起。

军事制度的演变跟随着物质和技术的变化。最终西方因为工业革命又先走一步,从雇佣军回到全名皆兵的义务兵役制。靠工业革命带来的强大物资支持,能够在战时做全民动员。最终在一战,二战时如同绞肉机一般,能造成几百万,几千万人伤亡。 细究起来, 一战主要上场的还基本是欧洲精英。二战光精英也不够看了, 只好动员平民,甚至动员殖民地的力量。这在战后造成了全民民主,和殖民地解放运动等一系列平权社会现象。

历史是一个个螺旋上升的轮回,所以可以说国家在血与火中诞生,也必将在血与火中消亡。这是人类历史的宿命。也是复杂系统演化的基本模式和规律。 统治阶级开明与否,只能加速或者延缓这个过程,不能改变方向和大局。

(全文完)

 

 

 

 

记忆,又见记忆。总是回忆。

春节一边休息一边忙着吃, 不大关注研究的进展, 这两天有时间才看了看最新的论文成果。 这么说有点给自己脸上贴金。不在一线战斗, 其实没有太紧跟研究工作和论文。 所谓关注也只是刷刷人工智能相关的一些媒体公号朋友圈,看看人家帮忙给筛出了什么热点。今天就简单说说几个朋友圈热点,主题是有关记忆。

首先是一场热闹, 有关深度神经网络是不是在做记忆。两篇文章的一场对话。 其中一篇曾经在年前讨论过, 理解深度学习需要重新思考泛化能力。 作者从网络能记住随机的label出发,延展到讨论为什么无需正则化,这样的网络就可以有很好的泛化能力。作者最后的解释是认为泛化能力已经紧密结合在所谓记忆的细节里。这是传统理论没有涉及到的盲区。 该文作者只是提出了思考,没有给出恰当的解释。 就提出问题来说, 这是一篇好文章。 问题没有解决,也给大家留下了讨论的余地。

紧接着讨论就来了,Bengio团队有一篇题目为:深度网络不需要通过记忆来学习,的文章发表在ICLR上。这篇文章大概是说,虽然网络有大量参数足够用来记忆,但是并不是简单粗暴记忆法,前面那篇文章这么想,是因为实验做的不够细致, 学习随机label特别是噪声时网络需要更大的容量,而且随机样本更难学。改变学习中的某些类似在做正则化的方法,比如dropout, 对随机样本学习的影响比真实数据的要大。

文章中还特别说明了什么是记忆, 以及大家对这个概念理解的含混之处。前面一篇文章提到的记忆,意指类似用一张表格记住所有训练样本一样的简单记录法。这样可以精确对样本分类,然而对非样本集合, 分类结果就是随机的,所谓随机泛化误差。深度网络显然不是这样。

因为实验做的不够细致被打脸是常有的事情, 但是前一篇文章提出的问题还在。 为什么这么大量参数的网络, 无需正则化,就有很好的泛化能力。 Bengio文章里也提到了可能是某种early stop, 因为没有那么充分的学习去适应样本的缘故。这又是一个可以被打成筛子的想法。

涉及到记忆, 大家仍然各种稀里糊涂。这大半年对AI进展的思考,让我觉得对记忆的理解是解开人工智能奥妙的关键核心。有关记忆的含混的提法太多, 是因为记忆本身就特别复杂。

我们熟悉的存储, 那种记录在存储单元里精确的表格,看似简单的东西, 对大脑的记忆来说, 实际上是一种高级货。 按照研究大脑记忆的认知神经科学的提法, 记忆至少可以被分成语义记忆和情境记忆。 前面提到的那种精确的记忆来源于大脑形成了符号系统之后的语义记忆,是一种陈述性记忆,只有依靠语言和符号系统的帮助, 大脑才能长期记住一些事件。而情境记忆以对感官刺激的回应为主, 我们在儿时的早期记忆, 大致都是来源于感观的一些鲜活的画面和情境。 我们能够回忆起这些画面, 特别是其中的某些细节,但是就整体来说,并不是当时场景照相般的重复。

前面AI大牛吵来吵去, 似乎是弄混了语义记忆和情景记忆。 深度网络在玩的东西,都还只是在情境记忆的范畴。  如果沿着人的记忆形成机制来理解这个问题, 其实大家没有分歧。 因为人的记忆的有趣之处, 是在于所谓回忆,本身是一种计算过程。

在心理学系列里面,我们提到过利用科学方法研究记忆最早的是德国人赫尔曼.艾宾浩斯。艾宾浩斯通过研究自己学习新语言的过程, 提出了著名的遗忘曲线。直到今天还是我们教育依赖的所谓科学方法之一。 随后英国心理学家弗雷德里克.巴特莱特在1930年代做了很多有关记忆的研究工作. 巴特莱特有一本就叫做回忆(remembering)的大作。 他当时就发现, 人们的回忆不准确, 对同一个事件, 不同人在做回忆时, 会受到各自的世界观的影响,其中包括人们认为这个世界是如何运转的, 各种事物之间的关系如何, 都会干扰到他如何复述自己看到的故事。最终扭曲事实只是为了和自己的信念一致。

在随后的心理学研究里,记忆事实上是一种计算的观点被反复验证过。 所谓回忆, 实际上是根据当时的现场和个人的主观意识结合来重新生成一种对过去经历的描述。 会被修正,篡改和扭曲。除了前面两种记忆的划分,参与记忆形成计算的,还可以被分成能够进入意识的, 和在没有进入意识,可称之为只在潜意识中的记忆。 这一部分又包括程序性的技能和对极端情绪情感的记忆。 不同的记忆在现在脑成像辅助研究下已经被证明会激活不同的大脑区域,因此是来源于不同的计算。

似乎讨论认知神经科学和脑科学并没有帮助我们理解问题, 反而引发更多的混乱。 这里有太多的含混之处。 但是深度神经网络的另外一个热点,所谓生成对抗网络,又可以帮助我们加深理解。 就算你不同意生成对抗网络里做识别的那个在记忆, 做生成的那个网络要产生和真实样本一样的图像,总该是真正记住了某些东西了吧?

更加有趣的,生成对抗网络中一些现象, 和人的记忆过程有对应关系。 展开写可能又收不住了, 我们有机会再聊。 这里说说最近生成对抗网络中的所谓突破性进展, 在引入了来源于概率分布测度的Wasserstein距离后,对抗式学习的训练迈出了一大步。 顾险峰老师在他的公众号里用统计理论和微分几何来解释这个问题,有题为:看穿机器学习的黑箱系列文章,强烈推荐阅读。

讲了这么一大套枯燥的东西之后, 最后我们说点好玩的, 最近有两篇来源于用深度网络做生成的文章, 一篇用来补洞,High-Resolution Image In-painting using Multi-Scale Neural Patch Synthesis. 还有一篇讲像素到像素转换的Image-to-Image Translation with Conditional Adversarial Networks。 有人用这篇文章的思路做了个网站http://affinelayer.com/pixsrv/index.html。 利用简单的轮廓边缘来生成实际图像,比如猫,建筑,鞋子,包之类的。 这个因为有趣,出发了流行,被各种玩坏。从能够形成像模像样的大量细节来看, 网络确实记住了一些东西, 而从生成的各种怪物来看, 语义仍然是个很大的问题。 任重且道远。

 

 

美食家之道

春节过完已经一周了, 体重仍然伴随着年味的余韵不断增长。作为一个中年胖子, 本来其实不是像各位女士一样那么在意体型。但是当笨重的肚子已经开始影响灵活和速度时,就不得不琢磨一下少吃点食物。然而,美食的诱惑是生物基本的欲望之一,不可压抑太过,这样会不平衡。为了补偿少吃进肚子的东西, 今天我们来想象一下自己在吃美食,也就是做个美食家。

美食家是在吃的道路上掌握专业技能的人。所谓什么什么家,一般说法是来源于专家。也有人说应对是大家, 那是专家中更有名望的一小撮人。后者的定义对应人群数量太小,所以自竖靶子的人可以慨叹世风日下,人心不古, 说相声也也成了艺术家云云。如果同意相声也是艺术,那说相声够专业的称之为艺术家也没什么。同样, 吃的专业就可以叫美食家, 并不一定要是全国顶尖的那几个会吃东西的人。绕了一大圈说了一大通废话,是怕可能有人看不过眼来乱骂。 本质上,大家都是吃货。

之前的文章里写过几篇跟吃相关的内容,比如美食之道, 比如茶与咖啡。 春节闲谈-说说年饭​还顺带提了提广东美食家江太史家的事情。今天我们来谈谈,怎麼吃的更专业。如何从吃货演变称吃货中的战斗机, 也就是美食家, 其实还是一个吃货。

按照中国的传统思维, 当美食家首先要有丰富的吃货经历, 尝遍天下美味,方可开始点评。其次要能亲自动手,所谓旁观者未必清,一定要自己做过才能明白各种厨房高手做事的道理。最后还得归纳掌握原材料的各种特点, 最起码要能分辨好赖,进了市场不会乱物迷人眼,可以一眼扫过分辨明晰,直奔本场最佳之物,应季当时应景。

但是源于西方的科学的思路就不大一样。 科学要从小处着手,通过实验重复,来演绎归纳总结出各种规律,并在此基础上构建理论。中国的大师要有天分,要有足够的经历,更重要的是要有名师指点,名厨交流,因此很难培养,也许运气好才能出几个。 西方科学只要理论一经建立 ,就可以有系统规范化的训练过程,基本上沿着路径,只要被选上的都可以练成。专家可以批量生产。这是中西的不同。 从以中国一定要跟西方学才行。但是真正的大师还得要回到东方才能练成,因为吃也是一个复杂系统。

西方有许多巨型食品公司,通过现代工业化手段生产供应食品。每个公司都会培养训练一批人,有所谓的食品实验室,来研究食材的挑选,加工的过程,味道的选择和把握。这些人可以讲出一片土豆淀粉的含量,油炸过程中焦糖化,脱水等各种化学物理变化。还知道如何用糖,盐,或者柠檬酸来调味。直到可以大致准确的定位目标人群,预测产品的销量,并且依照市场反馈修正推出新品。这些在实验室里操弄仪器试管的人就是西方的美食家,或者美食专家。

有个笑话是说这类忙忙碌碌的专家,最后也不会吃上一口他们自己弄出来的东西,所以他们做出来的东西是灾难。这不是事实。学会吃,特别是如何品尝食物, 对他们来说也是第一步。

从大家相对熟悉的饮品品尝过程。可以简单解释一下。 很多人知道红酒,咖啡都有对应的专家可以评价或者打分。餐桌上喝过红酒的人,总会碰到有些比较懂得人介绍品酒的过程和仪式,然后大家似模似样的模仿一下。如果品尝红酒,或者咖啡,背后都是一样的道理, 就是充分利用你的感官来感受眼前这杯液体(固体,混合物)。

我们都知道人有五感,眼,耳,鼻,舌,触。在品尝食物的时候,这五种感官同时发挥作用。按照对最终结果影响大小的顺序,依次应当是鼻(嗅觉),舌(味觉),口腔(触觉),眼(视觉),耳(听觉)

先说嗅觉,这是品尝美食的重中之重,很多人奇怪,用嘴巴吃东西,为什么说鼻子更重要? 因为嗅觉其实远比味觉要丰富,而嗅觉神经到大脑的通路也最直接。嗅觉来源于鼻腔细胞里的蛋白质大分子捕捉特定的化学分子产生的电化学反应。细胞本来就是一个化学工厂,所以干这种事情非常擅长,相比之下机器要做这种事情就麻烦的多。所以五感里面嗅觉恐怕是最难靠人工来做的。

鼻腔细胞里的蛋白质大分子能够捕获各种特定的化学分子结构。比如通常脂类小分子是比较香的,高中化学就学过乙酸乙酯合成实验,醋和酒弄在一起变成了水果的香味。醋和酒本来有各自有浓烈的味道,这个转化让人觉得非常奇妙。 鱼类海鲜里大多有醛类,胺类闻上去很腥,做饭的时候会用葱,姜,蒜,内含有醇,烯,酚,醚等小分子,还有一些特有大蒜素之类的复杂分子,通过酯化反应,缩醛反应等化学反应,和溶解挥发等物理过程来去腥。是不是回忆起了很多高中有机化学名词?

如果不喜欢,大可以忽略这些乱七八糟的化学和物理。我们需要知道,同样一个东西在嘴巴外和嘴巴里对鼻腔的刺激产生的感觉是完全不同的。 大家都知道鼻腔和口腔在内部是联通的,所以吃东西,在鼻子凑过去闻之前是前香,到嘴巴里面,做个深呼吸,让嘴巴感受一下, 是后香。 一杯高级的红酒,这两种感受都要复杂才好。中国的茅台据说有数千种香味物质,比最好的红酒还复杂。

为什么这样, 其实可以用生物进化环境适应来解释。 比如腐败的东西会释放氮类化合物,这中东西闻起来就臭。闻过氨水的都知道那股子尿酸味。排泄物同理, 都是阻止你把这些有害无益的东西吃进肚子。这里就不展开了。

嗅觉之后,影响对食物感受的是味觉。为什么说味觉没有嗅觉重要, 是因为味觉相对来说比较简单。味觉来源于舌头上的味蕾,一些小突起, 有些人味觉发达,味蕾多,有些人味觉不发达,味蕾少。味蕾多的人对食物的感受更丰富,然而相伴的坏处就是特别挑食。这在食物匮乏的年代实际上是一种竞争劣势,这也不吃,那也不吃,只好饿死。你可以找个镜子观察一下自己的舌头,数一数味蕾。找个打孔装订的纸片,撕下带孔的一小片,放在嘴里, 数数一个孔里(直径大约6mm)有多少个味蕾, 15个以下是少的,40个以上是多的。如果有100个,那你不当美食家就太可惜了。

味觉因为简单,知道的人比较多,甜,酸,苦,咸,鲜。一共就五种,鲜是最后才发现的。 甜是糖。酸就是酸。 苦一般是各种生物碱,不爱吃苦是因为这些东西大多有毒。咸是盐,鲜是氨基酸化合物,新鲜肉类里很丰富。 味觉产生的好恶仍然可以用环境适应来解释。糖是热量的来源, 所以基本上人人天生爱吃糖。我们的祖先大致上应当是生存在一个少盐的环境里。猴子没事就互相理毛捡身上的盐粒吃。盐是古代社会最重要的贸易物资之一。农业社会里靠盐的贸易影响控制蛮族。甚至因为争夺盐会引发战争。所以重口味的比清淡口味的人多。在现代社会富足时代,一般人基本上都吃进去远超体内所需量的盐。

味觉的有趣之处在于这几种口味并不单独作用,而是互相影响, 甜,咸,鲜,搭配得当一定差不到哪里去,有时候点缀一点点酸和苦妙趣更多。在酒和咖啡的品尝里,这叫平衡,也就是甜酸苦咸鲜构成了某种精美的比例(这要通过训练才能体会)。对其它食物来说也是同样的道理。

味觉之下是触觉,也就是所谓的口感(mouthfeel),这包括口腔的触感,牙齿咬碎食物的反馈力,和舌头搅拌的感受。我们常说的脆,爽滑,涩都是触感。通常脂肪是一种好东西,尤其是动物脂肪,那种摩擦很小半流动状态的口感,是很多美食追求的东西。水的触感太简单,是不大好的, 我们说一个液体类的食物象水一样,通常是说这玩意不怎么样。触感最佳的代表物是鹅肝, 鹅肝是脂肪肝,其中脂肪和固体混合的恰到好处,吃到嘴里就是上佳的美味。

还要专门说一下辣,辣也是一种触感,其实是痛感。 所以小孩子天生都不喜欢辣, 嘴巴里面其实是疼。那又为什么大家都说辣上瘾?没错,辣会上瘾,因为来源于大脑的机制,因为辣引发的疼痛,大脑产生了内啡肽,一种神经递质,可以理解为安慰剂,让你不那么难受。鸦片,吗啡也可以止痛,作用机理大致相同。应当可以理解为啥吃辣上瘾了吧。顺带提一下,其实跑步什么的也上瘾。而且其实不是所有的痛都能上瘾, 缓慢释放的才可以。

以上三种直接感官说完,轮到视觉。视觉看上去和吃东西没有什么关系,其实很有关系, 有一种所谓黑暗晚餐, 是年轻人搞出来的玩乐项目,就是在伸手不见五指的的地方吃东西。 因为看不到,你事先不知道吃到嘴里是什么, 这样会很有意思。一些食物带来的感受会因此而不同,还会有很多混乱。 有兴致可以自己尝试一下, 注意不管是怎么遮眼睛,一定要事先不知道吃什么才可以。所以吃自己做的东西不行。同样一杯酒,因为颜色不同,喝的人感受也不同。因为吃东西的时候眼睛在先,知道这是什么东西,或者单凭颜色,大脑里已经回忆起了一些关联感受,有所谓预设立场,结合真正吃的过程引发的直观感受才形成了复杂的对食物的总体感觉。

最后听觉看起来更加没有关联。但是吃东西的过程中会产生各种声音。受过训练,所谓有教养的人会尽量弄出更小的声音。所以不能说听跟吃无关。听觉其实可以制造一种吃东西的氛围,影响大脑里的情绪系统。 吃不同的东西时候,听到不同的音乐,一样可以影响人的主观感受,以及对食物的判断。大脑天生就要把各种感官融合在一起才可以形成一个完整的情境,并随之存入记忆。

所以我们又回到了中餐的道理。 各种食物的要素都要混在在一起,够复杂,够微妙,引发人不同层次的感官感觉,丰富的情绪和情感,以至延伸到回忆和思考。才是真正的美食。 能体味到这些内容的,才是真正的美食家。 最后的极致,就是道。体悟美食,也可以悟。

谢谢观赏,全文完!

 

 

 

 

 

 

 

 

 

 

 

蚁群,蜂群和鸽群,说说群体智慧

眨眼功夫, 春节假期结束, 今天是正月十五元宵节。按照中国的传统,过了今天,年也就算过完了。过年头几天还在写文章,后来就开始偷懒了。果然人的本性还是懒,这一偷懒就一发不可收拾,已经十几天没动笔了。 今天强迫自己必须写点啥, 就来说说看上去比较简单,也容易讨论的群体智慧吧。

前几年有一本很热的书,IT届网红K.K写的失控。各种IT媒体,科普公众号都推荐过。估计很多人也都买回家了。但是这本书挺厚的,不知道有多少人能认真读完?这并不是报怨。现实情况是现代社会提供了各种用来分散注意力的文化消费品,特别是手机的存在,让人集中注意力把一本厚书从头读到尾这样的事情发生的概率大幅度的减小。所以这些都是正常现象。 我们的意识需要给自己的行为找出各种“合理”的借口,才有助于保持平衡,快乐的心态。

k.k在这失控本书里谈过很多关于群体智慧的内容, 特别是有关蚁群和蜂群的。 单个的蚂蚁,或者蜜蜂其实都很蠢。表现为行为方式基本属于随机游走,但是一群蚂蚁,或者一群蜜蜂在一起就可以搞出复杂,庞大的工程。 这集中体现在它们的巢上。

喜欢研究神秘现象的人,都知道英国麦田怪圈。 这种麦田里倒伏麦子的圈是怎么形成的众说纷纭。甚至有人说是外星人干的。 不信神秘主义的人说是英国农民为了吸引旅游者自己干的。 他们可能略微高估了英国农民的智商。也许在事件被媒体炒红以后会有各种模仿者,甚至全部后来的麦圈都是人为的,那确实是为了吸引旅游者。但是事情的一开始, 能想到在麦田里做个圈来吸引媒体, 恐怕属于疯子的行为。因为从现象推导不出结果。 我个人猜测,这种倒伏现象应当归功于某种动物的行为, 不是蚂蚁就是老鼠。 因为圈子长的很圆, 是单个动物行为的可能性不大, 应当是一群xx干的。这个猜测在南非荒漠的怪圈上得到了验证。 世界各地的沙地和荒漠上都有类似的怪圈, 应当没有人无聊到去这种地方人为制造奇迹,那也出不了名。 最新的比较公认的解释是这些怪圈应当归功于白蚁,和它们造就的白蚁巢。

白蚁巢可以被称作自然的奇迹之一。 荒漠上的巨型白蚁巢可以直径2-3米,高达10米。考虑到白蚁身长不过1厘米左右, 如果按照普通人160厘米的身高, 等比例放大后白蚁巢相当于人类搭建了高达1600米的建筑。这个高度是现代人搭建的最高建筑,迪拜的三星大厦的两倍。

盖楼并不是堆土不倒那么简单,那只是第一步。 更重要的是要设计合理的结构, 包括行走的通道, 物资输运的通道以及合理有效的通风等等。要优化好各种流,对有计算机帮助的现代建筑设计师都是很麻烦的事。然而白蚁做的很好, 研究过蚁巢结构的人发现其内部的各种结构都是优化过的,非常的合理。

同样,蜂巢也是自然的奇迹之一, 很多人都知道蜂巢的结构是在节省材料的同时提供最大容积的最优多边形几何结构。所有蜂巢底面菱形的张角都是109度28分。 蜜蜂一定不懂几何计算。为何全世界的蜂巢结构都惊人的一致? 这就涉及到本文的题目, 集群智慧。

构成一个集群智慧需要如下几个基本条件。

  1. 每个个体都有基本的“智能”, 初始状态可以是随机游走,但是保有基本的记忆,可以依据历史输入来局部寻优。
  2. 个体和个体之间有有效的信息交互方式。特别是两者共同的行为会被加强。类似hebb学习规则。研究蚁群行为的人Pierre-Paul Grassé 发明了一个专有名词叫Stigmergy,意思是 通过激励做出共同努力。
  3. 群体中包含有足够数量的个体。

满足以上规则的群体就可以做出各种复杂行为,好似具有智能。明眼人已经看出, 这其实就是一个神经网络。

具体到蚂蚁和蜜蜂, 它们传递信息的手段不同。 蚂蚁靠化学信息媒介,和两个蚂蚁之间的拍拍打打, 因为蚂蚁不会飞(白蚁会飞,但主要还是爬)。蜜蜂除了在二维空间里爬行,主要都是在三维空间里飞。所以蜜蜂传递信息靠在空间里跳舞,比如8字舞。三维空间的好处是可以直接一对多。 有效信息扩散的效率更高。 对能够形成群体智慧的所需要的最小个体数量来说,蜜蜂的蜂群比蚂蚁的蚁群要少。

以上的讨论是从计算的观点出发。换一种角度, 我们可以认为蜜蜂和蚂蚁的群体构成了复杂系统。 也就是从单个的个体行为推断不出整体行为。 一旦群体数量超过某个点,就是见证奇迹的时刻。无序变成了有序,这在复杂系统里叫涌现。

最后我们来说说鸽子。 老北京人都很熟悉鸽子带着鸽哨在天上飞来飞去的场景,但是现在养鸽子的人少了,这种场景不多见,最常见很多鸽子的地方是一些公共广场。鸽子在广场上经常呼啦啦一大片飞起来,在天上绕几圈,最后又落下来。 这看上去很简单。 但是研究无人机的同学们一定不同意。

最近无人机很出风头,比如今年春晚毛阿敏同学的节目满城烟花上有零度的无人机伴飞,一开始是20架,最后有50架。而被称作美国春晚超级碗比赛中场表演, lady gaga唱歌的时候也有无人机伴飞,现场有300架。这是intel给做的, 无人机最表演的最后还不忘做广告,构成了intel字符。 为此intel有个专门的部门,雇佣科学家来干这个,从一开始的10架,到50架,到现在的据说最多可以飞500架。花了两年时间,也有很大的人力投入。 零度给春晚表演提供技术支持,看后来的媒体报道说有个团队花了3个月时间。中国飞50架,美国飞500架,看似有差距, 其实并不是美国人更聪明或者技术更先进, 而是专注程度,花费的资源和时间的差别。希望零度的团队能保持下来继续专注于此。

Intel费了牛劲,出动了一群科学家,搞了两年的世界顶尖水平才能飞500架。 广场上轻松就有上千只鸽子飞来飞去,而且不会撞到一起,可见这件事并不象看起那么简单。与intel和零度非无人机的集中控制方式不一样, 鸽子的群体完全是自组织的。

一开始人们把蚁群和蜂群的概念套用在鸽群上,认为鸽子飞来飞去也是每个鸽子通过分布式投票决定的。最新的研究表明, 因为鸽子是高等动物。 所以鸽子的群体比蚁群要复杂。 鸽子飞来飞去确实有投票的因素,但是鸽群中存在着等级,有带头人, 带头人的投票权比一般鸽子要大很多。

Nature在2010年有一篇文章讲这个。文章题目是分层群组动态系统(Hierarchical group dynamics in pigeon flocks)。研究人员在十几只鸽子的腿上绑上了gps,记录鸽子的飞行轨迹。通过各种计算模拟最后得出结论。 每个鸽子都可以参与抉择,也就是鸽子讲民主, 但是有些鸽子是带头人, 也就是有些鸽子比别的鸽子更民主。整个鸽群有个层次结构,最后还是听带头人的时候比较多。

这种从十几只鸽子上推导出来的原理切不可滥用。如果自以为能由此推断人类的组织,那就要坏事。 因为复杂系统之所以叫复杂系统,其表现之一就是看上去差不多的东西,细究起来完全不同。稍有不慎,要么系统蜕化为简单正反馈的震荡,要么变成完全混乱的随机游走。所以一定要小心又小心。

BTW: http://gpolo.github.io/birdflocking/ 有一个鸟群动态的网页模拟器, 感兴趣的可以去玩一玩。通过设置网页左上的选择项,用鼠标随处乱点就可以加鸟或者障碍物,再试着调节网页上方的参数, 看看有什么变化?

今天是元宵节, 借机留个思考题, 元宵节要吃元宵,吃元宵要先煮元宵,煮元宵这个过程能构成一个复杂系统吗?  如果能,前提条件是什么?

谢谢观赏, 祝大家节日快乐,开心吃元宵!