笔记仓库

正常人的正常笔记集

写在2020年伊始

一些琐碎的关于上一年的各种想法,算是写给自己的总结。如果觉得这些对你来说make no sense,就当没看见就行了。

应激适应障碍

对我来说上一年发生了太多事,一直在从一个环境主动的跳到另一个环境,从一个圈子跳到另一个圈子,舍弃熟悉的技术开始学习完全陌生的技术,和曾经的朋友一步步疏远然后适应社交压力主动认识新的朋友。来不及享受comfort zone就自己push自己开始另一种生活,我并不能算是一个锐意创新进取有上进心的人,甚至可以说是个咸鱼,所以其实这样不断去适应的过程本身让我有点不适。或许大多数在我这个高龄的人都已经买了房买了车开始定居在某个地方,做着一辈子都能稳定做下去的工作,甚至已经开始结婚生子。然而我却连半年后会在哪都自己说不准,或许又开始transfer到别的学校或者quit了开始在当地工作也说不准,更别提其他的事了。

说实话我现在也很不能适应当前的状况,放弃了在国内已经做的轻车熟路的算法工程师的工作机会来美国继续上学(所以说我真是高龄学生了,好在phd里面我这年龄也不算突出了),虽然都是CS但是换了和工作时完全不同的方向。目前课业和科研上压力不大(大概是因为还没有正式起步),但生活上非常的不适应:

  • 美东和国内有13h时差,我不能及时的和在国内的朋友家人交流,往往我精力充沛的摸鱼时间他们已经睡了,反之亦然
  • 学业以外的行政杂务需要自己全程处理,比如我为了social security number的事已经跑了一星期各种office,去office A要文件A的时候她们让我去office B先要B文件,去office B要开B文件的时候她们会说要先有A文件她们才能继续处理,如此形成循环依赖,再加上我个人的语言天赋和后天努力也不足,社交容易恐慌,面对面交流很容易言不达意,拖慢流程。
  • 生活上的事也需要全面的自己去操办。因为没车甚至没考驾照,又住在比较偏僻的地区没有发达的公交系统,虽然几乎这里认识的每个人都愿意开车的时候顺便带我,但终究觉得这样很不自在。
  • 虽然我会做饭,但我并不热衷于做饭,在国内工作的时候也更习惯直接去便利店买三明治或外卖回到工位一边啃一边写代码,或者说我已经被这样自己只需要做技术上的工作,周边生态服务来support我后勤的模式惯坏了,往好了说也是我脑子里面关于生活以外的事的想法实在太多迫不及待的想去实现,所以每每在生活琐事上浪费时间会让我很焦虑。

不过新环境也有让人兴奋的地方,相对更自由的research环境和丰富的学术资源,非常nice的当地村民,优美清新的自然环境,廉价的大house(虽然月租折成RMB并不便宜),costco和其他超市里几乎不要钱的各种肉类,奶制品,蔬菜食材……

2019年开始我从一个完全失学失业的失败人士,一点点开始积累自信,拿到了全奖Master/Ph.D. offer,待遇还算不错的国内算法岗offer,在会议上发了论文,又去Pycon China分会场做了关于programming language/pattern matching的演讲分享……虽然中间遇到了不少不可抗的波折,比如签证被拒一次又被check一次直接导致了我推迟一个学期入学,不过总体来说我自己还是对自己一年以来的努力很满意,即使我的父母并不怎么认同我(在他们看来我现在依然不务正业,不如隔壁人家的女儿早早的就毕业考公结婚懂事)。

当然这些完全不同的经历也帮助我更多的理解与自己背景不同的人的感受和选择。比如我曾经也骄纵的无限制的向某个在读phd索要情绪上的安抚(虽然本意不是如此,但做了就是做了,没什么可否认的),当时只知道这是非常不体谅别人的做法,自己做错了事。直到现在才体验到在北美荒郊野外没有车,肩负学业科研生活压力的时候,受到某些无理取闹的事的耽搁导致后面的安排开始像链式反应一样崩塌时是怎样的不悦。再比如经历过几次完全依靠自己的搬家,才开始理解很多女生说的没房没有安全感,当然我至今也同样并不能认同这种说法,仅仅是同情而已。比如经常看见别人抱怨实验学科的de-educate作用,从事过工业界机器学习业务以后我也大概明白了这是什么样的绝望……康德一生未离开柯尼斯堡的梗也用烂了,但对于我这样资质普通的人来说,必须去经历和学习相应的事才能真正产生共情。

我也不知道这次适应又需要多少时间和精力,也不知道下次再换环境是什么时候,但我已经接受了这样多变的人生,以及它带来的多变的想法。

Lain

在这里推荐一部我去年半夜一口气补全的番:玲音

一开始只是冲着其中出现的Lisp编程内容和颇具赛博朋克的画风决定去看一看,结果发现其实讨论的话题相当深刻有趣。我更喜欢其中有关自我意识和友情的部分。如果有空我会详细的去写分析,解读,考据。现在暂时只是分享一下这个作品,以及结合我去年的经历最打动我的部分台词:

女主“网红”玲音的养父与其道别“你现在自由了”,上图为父亲的台词
依然是养父的台词
玲音的困惑和挽留
养父的台词
同上
同上

虽然这部分台词的真实意义并不是如此,但我依然共情到我自己的经历上,我从一开始就是自由的,实际上没有任何人限制我,我并没有什么苦衷,是我自己把自己束缚到失败人士的身份上走不出来,虽然我依然不够好,在很多地方确实不如其他人,一身坏毛病,但我依然是非常强大的存在,可以inspire很多人,只要我愿意在现实和其他人建立联系,无论是工作还是求学还是其他任何形式,都会有人主动迎接帮助我,带我走过最艰难的适应过程。

我刚来美国更新了twitter后就收到了这样的邮件:

之后在微信详谈发现是和我工作和求学经历相似的同方向Ph.D.,非常感谢我的post让他入门了机器学习,非常高兴看见我的状态更新。虽然我已经过了在其他人的评价上找自我认同的时期,但能够收到这样的反馈我仍然觉得非常开心,我远比自己想象的意义更大。

数据的偏见

我曾经说过,2019年的算法岗工作经历并没有给我带来编程能力上的本质提升(当然不是说完全没有提升,编程能力上给我带来本质提升和视角改观的是2018年重学数学基础和函数式编程以及编程语言理论的入门,这里不详谈了),但给了我对于数据完全不同的理解。

我曾经做过一个分类问题,业务数据的sample是每个合同相关的数据,label是每个合同的稽查结果(合同是否正确履行)。我当时用工业上在这种数据集上表现最好的GBDT类型模型去拟合,训练结束后发现能看到模型的feature importance给分最高的竟然是地域特征,后续试用时发现它会迅速把来自东北地区的样本直接标记为high risk然后建议不要签署。我开玩笑说我训练了一个“地域黑”模型,它这种行为和认为X省人总是会偷井盖有什么区别,毫无insight可言。

反应给负责业务沟通的同事,她说这是因为那个公司的业务稽查团队在东北,所以更倾向也更方便去随时检查东北地区的门店。而这个AI项目更希望我们提前指出那些合同是存在潜在风险的,让稽查团队更有效率的找到问题门店所在,如果还是依赖之前稽查团队的偏见假设,那不等于什么也没做吗?

我很不喜欢所谓的数据党。先不谈所谓“大多数XXX”却给不出任何ref的伪数据党,只讨论所谓把使用数据作为中立严谨客观讨论的充分条件的人。数据本身就是一定存在bias的,只要数据依然是以人类的工具去收集,以人类的方式去表达,以人类的选择去拟合……那永远无法完全脱离人类固有的偏见。

不仅真实世界的数据本来的dirty,每个环节经过人工处理一次会加重一次偏见。任何一本ML入门书都会提到“假设空间”这个概念,好一点的书还会和你解释什么是封闭世界假设,我们无法得知“真理的全貌”,只能把它部分的投射到假设空间上,确定超参数/架构都是在narrow down我们的假设空间,而这个过程是完全是基于人类经验和感情的,也就是说选择什么模型去拟合,本身已经是一种偏见的体现了。更不用说feature engineering这样赤裸裸的“我认为你应该关注我给你找的数据关系”宣言。

即使完全准确的数据也不过事真实数据某个snapshot的横截面,依然不能用以全面描述真实世界错综复杂的联系。

我始终对这一波AI浪潮持保守的态度立场,认为它的落地的最大意义人类分担简单机械枯燥的工作,以及超越人类计算能力的极限。我无法乐观的支持它能公正准确的代替人类去决策任何事,我也是我在保守主义与赛博朋克中提到的一部分观点,我希望始终对技术保持理性与谨慎的态度,不要夸大AI毁灭人类的BE结局,也不要鼓吹无脑的AI落地应用场景,在这波泡沫之下依然保持自己的判断一步步尝试可行性,做出真正改善人类生活的成果。

paper work

有一个一直以来十分牵制我精力的问题就是每当开发出任何新东西,都有不断的paper work要去描述它,库要写文档,算法要写论文和slides,实验要写报告……我一直以来的构想是用markdown直接完成学术/技术写作,至少我这一年以来尝试了脱离直接的TeX写作来写slides,然后自己搭tex+pandoc的工具链写makefile是完全可行的,一个例子是公司最后一次分享用的slides。为了结合实验结果出报告,我也写了一个Python库来自动生成带有runtime数据的报告生成器1。slides方面的自动化需求我也和不少其他专业的PhD讨论过,这确实是个很有意义的话题,如果有任何建议欢迎直接告诉我,邮件或其他形式均可。文档自动生成可以尝试用sphinx,直接通过代码内注释生成API文档,辅以少许markdown格式说明,可以直接生成完整详细的文档。

虽然形式很重要,但我一直都想把这些形式尽可能更加自动化,让人更专注于内容。去年很多次和leader谈话,他都直接夸我有很多其他人很难后天培养出来的优点,但最大的问题是不善于表达和沟通。换在以前我或许会不屑的笑一笑,我的东西爱看不看,我没有义务让你理解,但现在我觉得不是的,正因为我认为我的工作确实很重要,所以我更希望能让更多人理解和受益,我也能因此获得更多的资源和关注来推进我的后续工作,表达形式很重要,它可以保证信息的高效流通交换,但我不希望过多的把时间花在形式上,所以一直都在推进完善着我paper work的周边生态自动化工作,也希望能更多的交流和灵感。依然欢迎任何消息形式的建议给出。

End

把时差正确的倒过来以后就一直保持正常作息了,也是因为这里晚上确实没什么有效的娱乐,所以我现在也睡意来了写不动了,到这里就结束吧,邮件我会明天准时回复的。明天还要明天要干的活。