王磊缓过一口气,看著这几台破旧的机器,还有角落里刚接好的网线,再次涌起强烈的不真实感。
“我们……到底要干什么?就靠这几台破烂玩意儿?“
陈阳终於停下了敲击键盘的手,转过身,目光平静无波。
“磊子,我问你,网际网路上,现在什么最值钱?“
“呃……”
王磊想了想,“gg?游戏道具?”
“我前面说过了,数据。”
陈阳的语气斩钉截铁。
“高质量的、海量的数据。”
他看著王磊懵懂的眼神,继续说道:
“我註册这家公司,长远目標是做数据收集与分析”
为以后的大模型积累最基础的燃料
陈阳心里闪过这个句话,但没必要对王磊解释。
“要做这个,第一步,就是抓数据,越多越好”
“所以你才……”
“对。所以我这几天一直在写爬虫。”
陈阳点点头。
“但一开始就撞墙了。”
“撞墙?”
“验证码。”陈阳敲了敲桌子。
“所有稍微有点价值的网站,都用这玩意儿防机器人。我的爬虫要全天候跑,就必须过这关。”
“那你……”
我试了市面上所有能找到的识別服务。”
陈阳的语气带著一丝不易察觉的嘲讽。
“付费的,免费的,准確率最高吹到百分之九十,速度慢得像乌龟,遇到稍微复杂点、扭曲点的验证码就直接瘫痪。根本没法用,纯粹是浪费时间和金钱。”
“传统的ocr(光学字符识別),识別这些扭曲的图形,准確率能到九成都算烧高香了,极不稳定。”
“所以,”
陈阳指了指自己的电脑,“我正在尝试自己写一个新算法。”
“我的算法,”
他点了点屏幕,“准確率98%以上,速度?比那些市面上的快几倍。”
“写完之后,我才发现……”
嘴角勾起一抹极淡的弧度。
“我本来是为了挖金矿,顺手造了把铁锹,结果这把铁锹本身,也值钱。”
王磊听得一愣一愣的。
“所以……你的意思是……我们不挖矿了,先卖铁锹?”
这比喻他倒是听懂了。
“对。也不对”