薛宇:生物信息學預測——你能成為PI嗎?

【字體: 時間:2014年06月05日 來源:科學網

編輯推薦:

  這篇論文里,作者根據PubMed里25,604個學者的信息,利用機器學習的算法設計了一個預測工具,除一法的檢驗性能是AUC=0.83,能夠準確的預測研究人員是否有機會成為PI。算法不講了,無非就是個特征選擇加線性擬合,對搞生信的來說屬于入門級的算法。

  

吃完晚飯回辦公室來忙事,看見QQ上學生留言,推薦了最新一期Current Biology雜志上的一篇論文:

van Dijk D, Manor O, Carey LB. Publication metrics and success on the academic job market. Curr Biol. 2014 Jun 2;24(11):R516-R517.

附帶預測工具的網站是:http://www.pipredictor.com/

   論文講的啥咱過會兒再討論,按慣例先扯點兒不著邊兒的東西。首先給各位講個笑話,話說諾基亞的手機以前還挺好,現在越做越垃圾,最奇葩的是電池的電力如果耗盡,要么是電池報廢,要么是系統崩潰。前者是去年的事情,換了塊電池繼續用,系統崩潰是前天的事情,當時沒什么反應。修手機的師傅說,這手機要重刷系統,我說,哦,刷吧。等刷完今天拿來一看,我靠,毛都不剩了。趕緊問說這通訊錄還能恢復嗎?師傅搖搖頭:不知道;貋碓谵k公室里坐著,等下班的時候才反應過來了:兄弟我這回算是失聯了。

   上述這個笑話講完,咱接著再講個更搞笑的。話說晚上加班完回家正郁悶通訊錄沒了,以后怎么跟兄弟們聯系呢。豆兒他媽圍過來,說大豆兒(這是有來歷的,咱家的稱呼以小豆子為中心,所以我是大豆,我爸就是老豆,我媽自然就是豆奶了)你又在那里裝啥深沉呢?我說手機通訊錄沒了,郁悶呢。豆媽拿我手機擺弄了兩下,通訊錄又給恢復了。我...我說這是啥技術?豆媽說你難道不知道手機有實時同步的功能?我搖頭:不知道,我搞生信的又不是修手機的。話音剛落豆兒媽上來就一頓暴打。所以這件事情說明,搞生信跟修手機沒有關系。

   好,廢話講完,咱講正事兒。這篇論文不長,總共就兩頁,圖也就一個,講的啥這么有意思呢?且聽我慢慢道來。作者忽悠道,現在只要有個學術機構的教職,馬上成坨的簡歷就給你發過來,怎么評價這個人行啊,還是不行?所以要有個定量的依據,比如哈佛是看Top 5,不是領域的世界前五不要;咱是數NCS,看影響因子,看你論文數,然后還有個答辯;臺灣就比較簡單了,發表論文的影響因子總和。這樣大家總都有爭議,比如不應該數NCS啊,不要只看IF啊,要看引用啊,等等?傊鞣N爭議。

   這篇論文里,作者根據PubMed里25,604個學者的信息,利用機器學習的算法設計了一個預測工具,除一法的檢驗性能是AUC=0.83 (這塊兒別糾結,兄弟我很專業的告訴你,準確性不錯了),能夠準確的預測研究人員是否有機會成為PI。算法不講了,無非就是個特征選擇加線性擬合,對搞生信的來說屬于入門級的算法。主要的結論有:

1. 這個預測分析是針對生物、醫學及相關領域開展的,PubMed檢索不到文獻的不在該預測的考慮之中。

2. 如果你現在已經成為一名PI,那么恭喜你,因為這篇論文的結果表明,只有6.2%的論文作者能夠成為PI,所以這是個小概率事件。

3. 什么因素是決定你能否成為PI的關鍵條件呢?作者的特征選擇結果里,職業開始前的五個最重要的因素依次是:8年內第一作者論文數量,8年內論文總數,8年內最高影響因子,8年內影響因子超過6的一作論文,和4年內的論文總數。所以答案很清楚了:你發表的論文數量,和論文的影響因子,是成為PI最最重要的因素。

4. 每年發多少文章才有機會成為PI?作者的結果顯示,成為PI的學者,在職業生涯開始前大約平均每年要發表一篇論文;而沒有成為PI的學者,大約每年發表論文的數量是0.6左右。所以這件事情告訴我們,論文的數量很重要,灌水是必須的。

5. 那么影響因子多高叫高呢?作者的結果顯示,PI們在職業生涯開始前的平均IF,大約接近6,而沒有成為PI的學者們,大約是5。所以IF僅有1的差距,就已經很明顯了。這表明第一,學者們要灌水;第二,還得想辦法把水灌到IF高的雜志,比如華大基因,專門往NCS上灌,有本事!

6. 那引用重要不重要呢?比較重要,但不是那么特別重要。權重在第7、8、9位的特征,都是引用相關的。所以作者的解釋是,發的好要比引得好更重要。

7. 性別很重要。因為這是權重第6位的特征。研究結果表明男性更容易成為PI。(我靠,這是赤果果的性別歧視!)

8. 有很多PI在職業生涯開始前從來沒有發過高影響因子的論文,為啥還能做PI呢?這篇論文的作者發現,這些PI的特點就是發論文多,第一作者論文的數量是其他學者的兩倍。由此可見天道酬勤,發不上NCS使勁灌水好像也可以,只不過平均6分的期刊,灌起來還是挺需要技術含量的。

9. 大學排名不重要。這個就很搞笑了,作者居然用的是上海交大的世界前500大學排名!這個不得不贊!研究者所在的大學或研究機構的排名,對能否成為PI貢獻很小,特征權重只排到第16位。所以英雄不問出身,是哈佛、科大或者華工出來的對你成為PI沒有太大的影響。

10. 從第一篇論文開始到成為PI的時間,這個平均值大約是7年。經過7年以上才拿到PI的,一般是論文發在影響因子比較低的期刊,但是引用比較好的學者。所以好的工作沒有發表在好的雜志,也別泄氣,耐心等等再說,沒準兒成為高引的論文,那成為PI的概率就大大增加了。

 

   講完論文之后咱做個總結吧:

第一,這篇論文的作者是搞生信的,算是大同行。作者能有精力折騰這個,說明咱搞生信的學者真是想象力豐富和時間充裕到蛋疼。算法不稀奇,咱這邊生信專業的本科生大二也就能玩兒了,關鍵是需要收集和整理數據,還要用到文獻處理的技術,總之就是數據處理很麻煩,計算分析很簡單。

第二,作者在論文的結尾部分,強調的是這個工作只是發現關聯,并不強調因果。

第三,作者考慮的文獻從1990-2014,但僅考慮了1996-2000間發表第一篇論文的研究者,這樣超過13年才成為PI的研究者,大約有0.1%會被忽略掉。

第四,這個預測還挺有意思的,我04-06年發表了10篇PubMed可檢索的論文,都是共同第一作者的;我的學生讀博士期間共發表了13篇論文,有第一、共同第一和參與作者的論文,預測的結果表明我倆成為PI的概率都是96%!我還有個做的挺好的學生,但成為PI的概率只有46%。

第五,以后實驗室每年底的年度總結就好辦了,每位學生的總結報告首頁一定要附上未來成為PI概率的計算預測結果,這比天天催學生們發論文的效果要好的多。哈!

 



本文引用地址:http://blog.sciencenet.cn/blog-404304-800464.html

我來說兩句
0  條評論    0 人次參與
登錄 注冊發布
最新評論刷新
查看更多評論 > >
相關新聞
生物通微信公眾號
微信
新浪微博
  • 搜索
  • 國際
  • 國內
  • 人物
  • 產業
  • 熱點
  • 科普

熱搜:生物信息學|PI|

  • 急聘職位
  • 高薪職位

知名企業招聘

熱點排行

    今日動態 | 生物通商城 | 人才市場 | 核心刊物 | 特價專欄 | 儀器云展臺 | 免費試用 | 今日視角 | 新技術專欄 | 技術講座 | 技術期刊 | 會展中心 | 中國科學人 | 正牌代理商

    版權所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    聯系信箱:

    粵ICP備09063491號

    腾讯视频分享赚钱模式 福建快3最新开奖号码 双色球手机直播在哪看 11选5下载手机版下载 幸运飞艇全国统一开奖记录 黑龙江11选五5开奖走势图 天津快乐10分钟软件 佳永股票配资 内蒙古快3遗漏号 七星彩开奖结果查询 中国体育彩票公告