给师弟师妹们的一次经验分享

Author: im0qianqian

视频链接:待定~ 已拥有着暂不可外传~


初中 & 高中

  • 对电脑十分热爱,喜欢折腾各种
  • 自制过一些恶意程序(无传播能力、无实际经济损失)
  • 简单的学习过 flash 编程
  • 做过一些视频

 

本科学习

机器学习背景

  • AlphaGo 初版算法学习(涉及蒙特卡洛树搜索等算法,from ACM 大讲堂)
    • 体会到此类算法中的数学之精妙
    • 不同于打比赛时做的 dfs、bfs、A* 等搜索算法
  • ASC 世界大学生超级计算机竞赛,了解过微软 cntk 框架
  • 自学过一点 tensorflow,被劝退。转向 keras,完成毕业设计
  • 毕业设计:基于强化学习的黑白棋算法设计与实现

 

硕士学习

背景

本科

  • 双非
  • ACM 区域赛,铜牌(翻车)
  • Codeforces 2000+ 紫

 

机器学习背景

 

过程

COMET

  • 刚入学时,林老师和王老师分配了这篇论文学习,是一个做常识知识图谱补全的任务
  • 阅读前沿论文比较煎熬,时常遇到很多新词汇
    • 例如 word2vec、attention、self-attention、multi-head self-attention、transformer 等
    • 递归去一个一个学习,比如学习 transformer 的时候遇到了 multi-head self-attention,学习这个的时候又遇到了 self-attention 等
    • 不理解的地方,读代码
      • NLP 许多前沿预训练语言模型都实现在 transformers 库中,推荐使用
      • 读代码时别纠结于要弄懂每一行,先搞懂大致思路,然后分模块读
        • 基础:深度学习训练方法 = 构造数据、构造模型、数据喂入模型、得到模型预测结果、计算损失、拿损失做反向传播。
        • 然后,找到程序入口,一眼扫过去哪部分是处理数据的、哪部分是定义模型的,拆分开来,随后逐个细读,每一个细读依然如此,例如知道 BERT 有 input_ids 做 Embedding 的部分、随后经过 encoder 编码等。

 

SemEval 2020

打比赛
  • 后来老师分享了 SemEval 比赛,组队参加。
  • 一开始啥也不会,套套模型,跑跑效果,调调参。
  • 参加常识研讨会(复旦),https://www.dreamwings.cn/commonsense-seminar-2019/5534.html
  • 积极调研前沿论文,例如 KagNet、K-BERT 等。思考知识该如何注入文本(尤其是常识知识)。

 

写论文
  • 以前从未写过英文论文,写考试作文也非常费力。

 

摸索阶段

  • 追 arxiv 更新,也有 xixiaoyao 搭建的论文订阅网站 https://arxiv.xixiaoyao.cn/
  • 找导师讨论 idea,觉得可行,快速编码。

 

众安黑客马拉松、字节跳动安全 AI 挑战赛

  • 分数高不是决定因素,论文 / 答辩同等重要
  • 不放弃任何希望,做了就是可以说的点,说了别人才清楚你的尝试
  • 不局限思维,一条路走不通换个思路重来(原先代码积累是有帮助的)

 

多追踪前沿论文,多总结,遇到的 trick 多整理。
这里要提高自己的执行力,执行力强了,就能很快的测试自己的 idea 是否有效果。

然后不要被前期的工作局限思维,比如说一开始根据一个任务你写了一个 baseline,后期在这个基础上做了很多的改进,甚至一些改进和 baseline 之间的耦合度很大,难以扩展。这时,如果你的实验效果还是和别人相差较远的话,要尝试把自己的改进一一拆分,看哪些是有用的,哪些可能是无用的。

甚至这条思路走不通换个思路重来,或者重写一部分的代码。当然,原先的代码积累实际上是很有帮助的,能拿来用的拿过来,不能的重新适配一下。

 

心态

  • 低谷是有的,看如何应对

 

乐趣来源

  • 模型有效果
  • 巧用工具带来效率,例如 tmux、wandb、rss 订阅等

 

保持好奇,保持兴趣。
爱折腾。

 

工作

背景

  • 0 顶会
  • 1 竞赛(SemEval 2020)

 

准备春招

我是 2021.04.26 入职的,大概 04.10 左右告知录用。面试准备了一个周左右。

  • !优化简历,即使某个项目没做啥东西,讲的高大上可以吸引眼球。
  • 面试许多是围绕简历来的,所以至少简历上的内容要熟悉。
  • 面试要自信,不会的问题可以说自己的见解,完全没听过告知自己擅长的方面。
  • 面试经历:https://www.dreamwings.cn/2021-spring-job-interview/5759.html

 

  • 春招 or 秋招:我团队,秋招 hc(head count)= 总 hc – 春招成功转正人数

 

来自电气甲方的压力

  • 两篇专利(与 tsy 分摊,实际四月底投递)
  • 一篇论文(与 tsy 分摊,实际十月投递)
  • 持续的项目迭代
    • 催进度
    • 提需求
    • 一定要稳住

 

任务来了怎么做

  • 为什么这么做,有什么理论依据。

 

WSDM CUP 2022

  • baseline 不一定能 work,不要总在 baseline 基础上改进
  • 没有进展的时候,敢于推翻原先的解法,从头尝试新的
  • 保持冷静呀,抗压
  • 直觉上某个信息很重要的时候,不妨做一个数据分析

 

感受

关于压力

  • 有上班时间,时间不是非常自由,但好处是真的可以完全专注而不被轻易打断
  • 实习生会有师兄带,不怕进来不知道做什么,怎么做

 

略有遗憾的地方

  • 电气项目占用了太多时间
  • 英语略差,追前沿论文进展慢

  • 12 只已被捕捉
    • 淄博测漏 搜狗浏览器 Windows 10

      感谢分享,赞一个

      • 千千 Chrome | 103.0.5060.66 Windows 10

        哈哈,欢迎常来呦~