Author: im0qianqian
视频链接:待定~ 已拥有着暂不可外传~
初中 & 高中
- 对电脑十分热爱,喜欢折腾各种
- 自制过一些恶意程序(无传播能力、无实际经济损失)
- 简单的学习过 flash 编程
- 做过一些视频
本科学习
机器学习背景
- AlphaGo 初版算法学习(涉及蒙特卡洛树搜索等算法,from ACM 大讲堂)
- 体会到此类算法中的数学之精妙
- 不同于打比赛时做的 dfs、bfs、A* 等搜索算法
- ASC 世界大学生超级计算机竞赛,了解过微软 cntk 框架
- 自学过一点 tensorflow,被劝退。转向 keras,完成毕业设计
- 毕业设计:基于强化学习的黑白棋算法设计与实现
硕士学习
背景
本科
- 双非
- ACM 区域赛,铜牌(翻车)
- Codeforces 2000+ 紫
机器学习背景
- 入学前林老师分享了李宏毅老师的机器学习课程,学完了所有
- 边学边思考,有趣的动手实现
- 同时学会了基础的 pytorch 框架使用方法
过程
COMET
- 刚入学时,林老师和王老师分配了这篇论文学习,是一个做常识知识图谱补全的任务
- 阅读前沿论文比较煎熬,时常遇到很多新词汇
- 例如 word2vec、attention、self-attention、multi-head self-attention、transformer 等
- 递归去一个一个学习,比如学习 transformer 的时候遇到了 multi-head self-attention,学习这个的时候又遇到了 self-attention 等
- 不理解的地方,读代码
- NLP 许多前沿预训练语言模型都实现在 transformers 库中,推荐使用
- 读代码时别纠结于要弄懂每一行,先搞懂大致思路,然后分模块读
- 基础:深度学习训练方法 = 构造数据、构造模型、数据喂入模型、得到模型预测结果、计算损失、拿损失做反向传播。
- 然后,找到程序入口,一眼扫过去哪部分是处理数据的、哪部分是定义模型的,拆分开来,随后逐个细读,每一个细读依然如此,例如知道 BERT 有 input_ids 做 Embedding 的部分、随后经过 encoder 编码等。
SemEval 2020
打比赛
- 后来老师分享了 SemEval 比赛,组队参加。
- 一开始啥也不会,套套模型,跑跑效果,调调参。
- 参加常识研讨会(复旦),https://www.dreamwings.cn/commonsense-seminar-2019/5534.html
- 积极调研前沿论文,例如 KagNet、K-BERT 等。思考知识该如何注入文本(尤其是常识知识)。
写论文
- 以前从未写过英文论文,写考试作文也非常费力。
摸索阶段
- 追 arxiv 更新,也有 xixiaoyao 搭建的论文订阅网站 https://arxiv.xixiaoyao.cn/。
- 找导师讨论 idea,觉得可行,快速编码。
众安黑客马拉松、字节跳动安全 AI 挑战赛
- 分数高不是决定因素,论文 / 答辩同等重要
- 不放弃任何希望,做了就是可以说的点,说了别人才清楚你的尝试
- 不局限思维,一条路走不通换个思路重来(原先代码积累是有帮助的)
多追踪前沿论文,多总结,遇到的 trick 多整理。
这里要提高自己的执行力,执行力强了,就能很快的测试自己的 idea 是否有效果。然后不要被前期的工作局限思维,比如说一开始根据一个任务你写了一个 baseline,后期在这个基础上做了很多的改进,甚至一些改进和 baseline 之间的耦合度很大,难以扩展。这时,如果你的实验效果还是和别人相差较远的话,要尝试把自己的改进一一拆分,看哪些是有用的,哪些可能是无用的。
甚至这条思路走不通换个思路重来,或者重写一部分的代码。当然,原先的代码积累实际上是很有帮助的,能拿来用的拿过来,不能的重新适配一下。
心态
- 低谷是有的,看如何应对
乐趣来源
- 模型有效果
- 巧用工具带来效率,例如 tmux、wandb、rss 订阅等
保持好奇,保持兴趣。
爱折腾。
工作
背景
- 0 顶会
- 1 竞赛(SemEval 2020)
准备春招
我是 2021.04.26 入职的,大概 04.10 左右告知录用。面试准备了一个周左右。
- !优化简历,即使某个项目没做啥东西,讲的高大上可以吸引眼球。
- 面试许多是围绕简历来的,所以至少简历上的内容要熟悉。
- 面试要自信,不会的问题可以说自己的见解,完全没听过告知自己擅长的方面。
- 面试经历:https://www.dreamwings.cn/2021-spring-job-interview/5759.html
- 春招 or 秋招:我团队,秋招 hc(head count)= 总 hc – 春招成功转正人数
来自电气甲方的压力
- 两篇专利(与 tsy 分摊,实际四月底投递)
- 一篇论文(与 tsy 分摊,实际十月投递)
- 持续的项目迭代
- 催进度
- 提需求
- 一定要稳住
任务来了怎么做
- 为什么这么做,有什么理论依据。
WSDM CUP 2022
- baseline 不一定能 work,不要总在 baseline 基础上改进
- 没有进展的时候,敢于推翻原先的解法,从头尝试新的
- 保持冷静呀,抗压
- 直觉上某个信息很重要的时候,不妨做一个数据分析
感受
关于压力
- 有上班时间,时间不是非常自由,但好处是真的可以完全专注而不被轻易打断
- 实习生会有师兄带,不怕进来不知道做什么,怎么做
略有遗憾的地方
- 电气项目占用了太多时间
- 英语略差,追前沿论文进展慢
有趣的网页捏~OωO
谢谢大佬抬爱~ ヾ(^▽^*)))
感谢分享,赞一个
哈哈,欢迎常来呦~