随着王老师领着众人从机房回来,屋内顿时一阵寒暄。
喻林却似乎没有听见,对着大家的招呼,她只是挥了挥手,表示自己已经打过招呼,便继续低头编写规则。
她必须承认,余江给的方案很简单,而且似乎一听就很有效!
没多久,她便迅速优化完规则,开始上传代码。
随後,她打开tianwang,随便输入了几个之前一直困扰她多时的歧义词进行搜索。
「余神!」
她转身大喊,却发现所有人都一脸惊诧地盯着她看。
「人呢?」
「走了。」
「我靠————大哥们,你们怎麽能让他走的!」
几个男生互相对视,无比惊讶:「难道留人家吃饭?聚餐你买单啊?」
「我买啊!」
喻林猛地拍着办公桌:「闫哥,这家夥是个宝藏!」
余江顺路在雁南食堂吃过晚饭,随後赶往公司。
虽然沈予慧再有「成长」的愿望,累计上线突破十五万,他也理应到场。
一个月不见,慧江科技已经大变样。
前台已经有人,还是个漂亮小妹,工位区扩充了一倍有余,最左边被隔出来的客服区更是坐满了人。
余江心中乐了一个。
看来一切都好,就是加班有点严重。
一路安静地穿过工位区,余江走到沈予慧办公室的门前。
刚准备敲门,他就听到虚掩的房门内传来王小川的声音:「那我要不要给老板说一下?」
「这肯定要说的。」
余江微微一愣,也不管时机恰当不恰当,叩了两下後直接推开房门。
只见王小川坐在长沙发上,沈予慧则坐在另一边,见他进门,同时朝他望来。
「刚听到一句,川哥说要跟我说什麽?」
余江走到王小川身边坐下,问了一句後又望向沈予慧。
沈予慧冲他笑了一笑。
「小川说,新学期开学,他们那边兼职的可能强度就没办法像之前那麽大了。」
余江偏头看着王小川,後者无奈一笑:「你应该能理解吧?」
「倒是能理解,但怎麽我有种感觉是打一枪就跑呢?」余江瞥着他,语气有些不爽:「特别是钱文杰那家夥————」
「哈哈哈,你知道他和许一城是要留学的,下半年就大四,也该做准备了啊。」
余江就皱了皱眉。
但他能说什麽?
就算是後世,对有留学经历的技术人才都高看一眼,别说现在了。
只能说人各有志。
「没事,只要你不走就行。」
「那你也不能把我当全职使唤啊!」王小川哭笑不得:
:「我这才研二,还稍微可以轻松点,到了研二研三还得忙课题。」
余江点了点头。
搞游戏不比搞网站,是需要高度交流的,找一帮全兼职的,在需求明确的情况下没问题。但如果要推进一个新项目,那交流成本就有点过高了。
「这样,传奇项目因为你们熟悉,後续就还是让他们先接手搞起走,文档写好,注释写好就行。」
王小川一口答应:「这没问题。」
「那就OK。」
余江把王小川送到走廊,这才转身走进办公室。
随後,他关上房门。
沈予慧坐在沙发上,认真地看着他。
余江道:「等到收费,我们就应该是一家正规的集游戏开发和运营於一体的公司,确实不能指望兼职学生来攻城略地了。」
沈予慧便叹了口气。
「别叹,公测一周就突破15万在线,然後还有地推陆续发力,到年底你说干到50万都相信——你知道那是什麽概念吧?」
沈予慧笑了一笑—一她早就想过这个数字意味着什麽。
「所以,我有个想法。」余江望着沈予慧:「我今天被系主任拉进了天网课题组,简单了解了一下,课题组穷得要命,而且技术上完全无法和商业公司抗衡。」
沈予慧一怔:「然後呢?」
「过几个月,你看能不能和课题组联系,搞产学研合作。」
余江微眯着眼,轻声道:「现在百度还在襁褓中,谷歌虽然强,但谷歌不懂中文——中文的精髓在於分词技术,这是老外没有的麻烦。」
「你懂?」
「我可太懂了!」余江轻轻呼气:「现在搞搜寻引擎最大的难点是人才奇缺,只要和天网勾搭上,我们再依靠Lai123的流量,未必不能压谷歌和百度一头!」
「更重要的,是今後AI训练要很多语料,不搞搜寻引擎不行的。」
听到余江又提到AI训练,沈予慧就知道他这是要做长远打算了。
於是她慢慢点头。
「搞!多少钱都搞!」
第二天,正式上课。
昨晚他就接到了导员的通知,说系里决定以研代考,让他直接去实验室即可。
於是第二天,余江悠哉地骑着自行车,早上九点半才晃悠悠地来到实验室。
他可太懂工科实验室了。
一晚上随便熬,上午能十点到那都算早的!
不出他所料,只有闫师兄一人在场。
「早。」
闫师兄二十七八岁的模样,头发稀少,见到余江先打招呼。
「师兄早。」
余江坐到老爷机前,按下电源,风扇便疯狂转动。
这十年老拖拉机的动静,他敢打赌,那块赛扬566都应该属於「升级」。
「师兄啊————你们是用的什麽电脑呢?」
「奔I1I800。」
见余江一副生无可恋的表情,闫师兄呵呵笑道:「你来晚了一点,本来有多的,後面老板感觉集群太吃力,就把那台奔3的放机房去了。」
「你们机房没用专门的伺服器啊?」
「是啊,全用的台式做集群————所以你知道我们条件多艰苦了吧?」闫师兄摇了摇头:「去年有人毕业证都不要就直接跑路了,实在受不了这玩意。」
余江:「————是够艰苦的。」
这会电脑已经打开,余江迅速输入密码,打开arXiv。
现在arXiv上占位性质的论文很多,但也能看到高质量、高数量且最新的论文。
这边,闫宏飞见他快速地用滑鼠划拉着篇幅,几乎几分钟就把一篇全英文的论文看完,随後又打开另外一篇後,眼中惊讶顿升。
他这是读论文,还是在看网文?
怀着疑惑,闫宏飞起身,慢慢走到余江身後。
只见余江正在阅读一篇关於玻尔兹曼机的论文。
看得出来,余江看得很认真,但他翻页的速度依旧极快!
甚至闫宏飞都只来得及看清楚一个公式,余江就又翻页了!
闫宏飞只感觉头皮一阵发麻:「你看完了?」
「嗯。」余江回头,见闫宏飞满脸惊恐,马上意识到对方可能被自己看论文的速度吓到了,连忙解释道:「就随便翻了一下。」
闫宏飞却只是摇了摇头。
他当然愿意相信余江只是随便翻了一下。
但随便翻的状态,和认真的、快速看的状态,又怎会一样?
他又联想到这家夥恐怖的分数————
沉默了几秒,他又想到昨天喻林的话。
「师弟,你对爬虫了解多少?」
余江回头:「了解了一点点,怎麽?」
「就是即便加了节点,并行抓取也是重复,而且很慢。」闫宏飞望着余江:「有思路没?」
余江微微皱眉。
这位师兄好像是博一————
「嗯————师兄肯定去重没问题————」余江一边说着一边观察闫宏飞的表情,「要不我看看日志?」
闫宏飞点头,随即打开日志。
余江从旁边拉过凳子,迅速查看日志。
爬虫这玩意谁没玩过啊—一他当初写的验证lai123连结网站的小工具,如果加一道分析,就可以算爬虫了。
「师兄用的文件列表?」
「也试过HashSet去重,但很快就爆内存。」
「URL队列问题确实难搞。」余江点头,安静地思索了片刻。
闫宏飞也耐心地等待,只是眼神略有闪烁。
「HashSet在URL总量过高的时候确实会占用大量内存,文件列表吃I/0。
"1
闫宏飞就叹了口气,他的办法是平均负载,但终归治标不治本。
余江转头望着闫宏飞。
「要不试试全局去重?」
闫宏飞一怔:「怎麽全局,什麽架构?」
「引入一个轻量Master节点,专门维护一个全局BloomFilter做去重。」
「位数组大小按我们当前几千万网页规模留足余量,用几个独立哈希函数,误判率控制在千分之五以内就够用。Worker节点本地先快速过滤,新提取的URL再批量通过TCP发给Master确认。」
「关键是per—hostbackqueues:Master按主机名hash分桶,每个主机维护一个FIFO队列和一个下次可抓时间————」
「————Master本身用轻量内存结构,也没什麽瓶颈。」
余江一边思索,一边慢慢地给出方案。
他同时也感慨。
这些在後世几乎算是搜寻引擎入门教科书一般的解决方案,在现在却是拦路虎一般的存在。
闫宏飞认真地听着,最後猛地望向余江。
「你之前干过?」
闫宏飞死死地盯着余江。
他完全不信,一个没有干过搜寻引擎的人,会在这麽短时间内就给出近乎完整的解决方案!
余江轻轻咳了咳:「玩过爬虫,也玩过分布式————但分布式爬虫没玩过。」
「我晕!你上哪里玩的?」
余江一阵无语。
知道不把这帮师兄们震住,怕是每天都要问个不休了。
「师兄,非得要我说,我有个非常有钱的姐,她手底下有上百台P川志强伺服器吗?」
「靠!」
闫宏飞猛地起身。
这时,徐飞和彭波也正好进门。
「你俩来得正好!赶紧把他按住!」
二人同时一惊。
「闫哥你要干啥?」
闫宏飞是一愣,似乎也不知道自己起身干啥。
但他很快转头望向余江。
「师弟,能把你姐介绍给师兄吗?」