准備每天下班前都會花幾分鍾總結一下實習的每一天干了什么。
本人是某大型農民工企業的人肉實習標記師,調參實習魔法師。
實習的最終目的:
1.學會該公司的核心技術,后端的搜索技術,至少得掌握的七七八八。
2.能夠靠實習期間學會的技術,找到一個算法工程師的工作。
2017年4月26日
早上入職。
中午食堂還挺好吃的,就是感覺人好多的樣子?
下午電腦有問題,拿給it服務部門重新配了個系統。
領到新手任務:熟悉一下shell腳本,重點可以看看awk。學習一下hadoop的使用,主要是streaming方式。
我找到的awk學習鏈接:http://coolshell.cn/articles/9070.html
2017年4月27日
今天的任務是學習hadoop。
中午簡單給了我三個shell的練習題,讓我練練手。
練習題鏈接:http://www.cnblogs.com/qscqesze/p/6774125.html
百度內部的度學堂非常贊,干貨特別多。
新的akw學習地址:http://awk.readthedocs.io/en/latest/
晚上被拖去聽核心技術去了,然后就和聽天書一樣,完全聽不懂。。。。
半天,shell從入門到跑路。
2017年4月28日
讓我寫爬蟲,寫個傻逼爬蟲
確定了自己的開發方式,本地寫代碼->gitlab->pull開發機->開發機調試的過程。
2017年5月2日 14:25:29
放了三天的假,回來一看原來的爬蟲效率好低,重構了一下,效率一下子就上來了。
然后扔在那兒爬了一上午。
我就去看公司內部的度學堂,去看了幾節Hadoop的公開課,但實際上那些都是講hadoop的原理,並沒有講怎么用,尷尬……
感覺以后只能結合任務,再來學習hadoop了。
下午去翻了翻sklearn的一些知識。
2017年5月3日 19:15:02
早上在做電子商務的作業,寫了個京東的動態爬蟲,抓了抓手機的參數。
下午當了一兩個小時的人肉標記師,標了數據交過去,好像結果不太理想,mentor讓我構造query去檢查一下什么的。
然后我就把我之前的爬蟲改了改,准備跑更多的數據出來,於是就扔在本地一直跑了。(公司的開發機並不能連外網。。
我順手和某個人組隊去玩了下騰訊的算法大賽,xjb處理了下數據,拿gdbr取跑了跑,log loss跑出來是0.24,感覺還是蠻好的。
我給我同學推銷我司的5折愛奇藝的時候,他以為我號被盜了,差點就把我拉黑了,阿西吧(x
2017年5月4日
早上一來,就發現爬蟲跑完了,比之前跑的數據多了400%,感覺很強。
然后鼓搗騰訊的算法比賽,找了個magic feature,loss 跑到了0.12,感覺也很強。
中午去聽李彥宏演講,見證了新使命的誕生,順手拿了本書,雖然感覺自己不會讀。。
下午就做分層,造query。做完了,就去kaggle找了個算法比賽,把騰訊那邊的比賽代碼拿過去用了下,不過結果不太理想,感覺自己還需要努力。
2017年5月5日
一早上都在人肉標數據,終於把這件事兒給干完了。
下午我覺得我在搜索組,不能浪費了這個資源,於是找了個百度內部的搜索框架公開課,把搜索框架大概的看了一遍。
至少知道了百度的搜索的框架是什么,如果我要做搜索引擎,究竟應該怎么做什么的。
下班的時候,陪着學長去打台球,結果沒位置,就直接滾回去了。
這周過的還是蠻好的吧。
2017年5月8日 18:49:55
早上在干瑣事,把qscoj的首頁更新了,把cf的題解做了。
下午把爬蟲這件事兒好像應該是弄完結了吧。
然后把騰訊的傻逼比賽調了調參數,弄到了0.11大關。
用公司安裝xgboost,死活安裝不上去,真是太氣。。。
晚上去度學堂學技術把。
2017年5月9日 19:19:23
今天一天好像都在打雜,都在忙一些雜事,雖然自己確實在寫代碼,但是好像這些事兒學不到任何東西。。。
今天看到了hadoop是怎么用的了,感覺好像是有點簡單呀,至少使用難度非常低。。。
2017年5月10日
今天好像啥都沒學會?誒不對,騰訊算法大賽混了件T-shirt。
看了下bs的一些教程,但是完全看不懂啊,我覺得這玩意兒沒人講,就很難看懂的= =
自己看了百度內部的人臉識別的教程,結果是教人如何使用API= =
2017年5月11日
GTMD內部調試工具,這個怎么能寫的這么爛?第二次和第一次調試出來的結果還不一樣???難道我每次都得調試四五次,然后取最好的嗎???GTMD百度,賊氣
今天學會了xgboost。
早上造query,下午邊造數據邊跑騰訊算法大賽的模型,晚上專心調整參數。
2017年5月15日
早上沒什么事兒干,就把騰訊模型重新跑了一遍,哇,玩了一早上提升了0.004的成績,真TM棒。
我搞不懂那個騰訊比賽了,我每次都在進步,排名卻越來越低,哎喲,心態炸了,心疼自己……
下午標數據,感覺。
晚飯吃的沙拉,感覺就是在吃草,看着像草,聞着像草,吃着也像草。我覺得美帝人民居然天天都吃這玩意兒,果然是生活在水生火熱之中。
晚上拿xgboost,把kaggle的菜B比賽全部跑了一遍。
2017年5月16日
早上不停的標數據。
下午不停的跑模型。
晚上跑模型。。。
回家玩手游。。。
好頹廢呀。。。
2017年5月17日
出題出題,出玲瓏杯的題目中。。
早上寫了一早上的標程
下午老大給了我幾億的數據,讓我從這些數據中篩選出一些東西來。。
Emmmmmmmmmmmmmmmmmmmmmmmmmmmmm
我感覺我就是在大海撈針呀。。。
手動玩了玩其中的200W數據,篩除了2000個,於是我只要重復這樣篩選大概200次好像就做完了,真強。
晚上看電影
2017年5月19日
早上加中午出題,把玲瓏杯糊弄過去了
下午大海撈針
晚上看公開課,學會了一些機器學習的奇淫技巧(x
2017年5月24日 17:19:19
好像一直忘記寫了。。。
這幾天在弄爬蟲,標數據。
讓我想辦法,找到XX的官網數據,這簡直是大海撈針。。。。
然后出完了玲瓏杯的題目。
玩騰訊的傻逼比賽。
機器學習從入門到跑路。(x
以及每天晚上回去都在趕學習的作業T T
2017年5月31日 15:20:53
好像還是忘記寫了,一直在大海撈針,划水上班……
2017年6月14日
完全忘了這個了。。
大海撈針弄完了,接了個新任務,任務大概就是要實現一個簡單的搜索引擎。
query -> query進行分詞 -> 計算每個單詞在url出現的權重 -> 分詞結果進行合並得到query權值 -> 權值排序
不過這個里面的第二步和第三步都已經被實現了,我只需要實現1,4,5這三部分就好了。
總結
百度里面我確實由於是短期實習,所以並沒有接觸到比較長線的項目,接觸的大概都是一些無關緊要,體力活偏多的東西。
不過我仍然學到了很多,非常感謝在百度的前輩。
印象比較深的就是跟着偉哥做的一個酒店相關數據收集的項目,雖然這個項目我覺得很傻逼(x。但是我學到了,做事情一定要做徹底,自己確定無誤之后,再去上交,以及遇到不懂的問題的時候,一定要及時和自己的leader溝通,不要自己悶着……
在百度里面,跟着鐵頭娃做了一個機器學習的比賽,讓我徹底入了機器學習的門,非常感謝鐵頭娃的不離不棄,到死都沒有拋棄我這個拖油瓶。
以及熟悉了大公司的流程,也開闊了眼界,還趁着去了青島旅游了一趟。這也是人生第一次看到海!
不得不說,百度食堂真的很好~
從后面來看,我應該是基本達到了最初自己定下的兩個目標:了解搜索引擎,學習機器學習。
感謝驍哥推薦的一本搜索引擎架構的書,讀了之后收獲良多。
機器學習我覺得我也成為了一個調包俠了(x
再次感謝前輩們,青山不改,綠水長流,日后江湖相見,自當杯酒言歡,咱們就此別過。
----------------------------------分界線!!!!!!-------------------------------------
初步目標:找到一份工作!!!!
2017年7月12日
百度實習已經離職了,現在到了今日頭條
今天是頭條的第一天上班,leader給了我一個(超級超級大的)代碼庫,讓我先看一天
然后我把git和vimrc都配置了
今日頭條比較好的就是公司食堂是免費的,空調溫度比百度的溫度低一點,好評!
而且電腦發的是最新的macpro,感覺超爽!
2017年7月13日
繼續讀代碼,找leader把項目的業務流程熟悉了一遍。
不過真的很想吐槽啊,幾萬行的代碼,注釋不超過十句。。。全是c++,這怎么看= =【和別人討論了一下,我感覺是我的C++姿勢水平太低
晚上幫人做了一下筆試題,感覺自己寶刀未老(x
2017年7月14日
今日頭條請假了,去百度把離職徹底弄完了,和他們還一起吃了一頓午飯。
比較好玩的事情,我交接離職信息的時候,發現管這事兒的人不在,然后我就打電話給她。
然后我bb了一會兒我交接的信息,然后她告訴我:“那個 我也離職了,你要不找XXX吧。”
對了,走之前,我去百度內部的超市,買了一個百度的卡套,算是留給自己的紀念了吧~
2017年7月16日
看一天代碼,不過效率很低,大概是因為自己蠢吧
然后順便把google的筆試做了,最后的排名還可以