您现在的位置:主页 > 484848开奖结果 >

专访 IPIPNET 创始人高春辉: 数据库的技术创业实践

来源:本站原创 发布时间:2019-07-10 点击数:

  主持,致力于深入采访国外内顶尖技术力量,报道最前沿、最有深度的内容,分享干货和经验。

  本期采访嘉宾是IPIP.NET创始人高春辉,他应邀在 InfoQ 的新办公室接受了专访,就 IP 数据库的发展现状、难点和创业心得发表了自己的看法。

  InfoQ: 你是创业老兵了,为什么会选择 IP 数据库这样一个小众的领域来继续创业?

  高春辉:其实这个初衷不是按照创业的路数做的,只是因为之前半公半私的原因,对 CDN、DNS 一类的事情在做研究,但是 IP 库是其中一个非常重要的组成部分,然后这个事情是所有人都头疼的一个问题。而且之前在 ECSHOP 时代也曾经接触过,只是没有下文。

  还有一个比较重要的原因也是因为我家里有事,我更需要在家呆着的时间里,找个事情干,谁让我是不找点事干会死星人呢:)

  简而言之,做了,而且发布了,但做起来之后的反馈尤其是我的文章发表之后的反馈,是我没有想到的,而顺着这个事情还可以做些挺有意思的事情,也是顺水推舟的了。 有朋友说这是无心插柳柳成荫,我很赞同。而且在我看来,其实无论互联网行业还是非互联网行业,很多在后来做大的事情,都是从一个很偶然很不起眼的机会做起来的。

  InfoQ: 目前的国内外 IP 数据库都有一些,虽然质量参差不齐,但大家都在凑合用着,为啥要做一个高质量的 IP 数据库?是有强烈的市场需求还是你的理想和情怀?

  高春辉:这个事情,从当时看,还是希望给自己一个高质量的数据库吧。虽然后面碰到的很多问题,也是自己之前没有意料到的,麻烦总比想象的多,但还算可以坚持做下去,虽然中途一度想放弃。

  而从我现在已经维护了一年多,包括和很多对 IP 库有需求的公司的人沟通后的结果,得到的答案是这样的。

  从 IPV4 的角度看,去掉不可用的地址范围,应该有 30 多亿,全球应该有 5 到 8 万家 ISP、IDC 在使用这些 IP,而你想象一下,不管任何原因,平均一个公司一个月对他的一个 IP 段去做变动的话,我们就等于每天都要面对大量的 IP 的变动的跟进。

  我大概算了一下,如果想自行维护一个高质量的 IP 库的话,从工作量的角度,至少需要两个全职的人来维护,而且想提高效率,还需要招一个做自动化验证和发现的工程师。按照目前的薪资待遇计算,成本可想而知。

  而更重要的问题是方法,放眼望去,有关地理定位的话题与分享,在国外也是相关的会议上的常客,没见到哪个公司或者机构有一个总结性的答案,而且包括我看到的分享,也有类似美国国土安全部的参与,可想而知这个事情的重视程度和难度了。

  而在一般的情况,介绍给你的方法不外乎按照 WHOIS 数据标注,还有就是寻找不同的 IP 库来源,进行拼装。但是他们自己都不认为这是最好的方法,而只是最简单的方法。

  而我们在做的,除了会借助于运营商的数据以外,会以 BGP 数据以及目前已有 160 个监测点来做监测和验证,其准确程度一定会比只借助于 WHOIS 和其它 IP 库的方式要更高大上的。

  对于自动化的方式,我们也在探索,目前考虑的办法是分成两块,一部分做已有标注的验证,另外一部分也是更难的,想做发现,如果有兴趣一起参与的朋友,可以与我联系,急需!

  关于提高 IP 准确度的方法,高春辉在“IP 库的那些事儿之 2013-2014 流水帐版”一文中做了更加详细的解答:

  高春辉:如果完全按照 WHOIS 抓的方式,不太够用,毕竟 WHOIS 信息已经有十几年历史了,肯定有不少信息已经不再准确,而且里面的国家到底是公司所在的国家还是 IP 所在的国家,你只能靠猜。这时候在 BGP.HE.NET 上逛的多了,就会发现有个 AS 数据显示在 IP 所在页面上,一开始也没注意,后来越来越发现,这个事情貌似和 IP 的地域有关,比如你要是北京联通的 IP,往往它会给你显示 AS4808,花了不少时间研究 BGP 这东西。

  于是发现 ASN 是 BGP 的一部分,现代的互联网的互联互通,是靠 BGP 协议在起作用。一般一个公司在维护一个网络的时候,高大上的方式都是去申请一个 ASN 号码,再申请属于自己的 IP,然后以这个 ASN 的名义广播出去,让全球的路由器都知道该通过什么样的网络路径去访问这些 IP。到现在为止,全球的 ASN 数据有大概 70000 条,还在逐渐增加。

  那么我就在想,能否根据这个数据来去做一个 IP 的围栏(地理名词,我借用一下,意思差不多),给每一个 ASN 做地域标注,比如 AS4808,就是中国北京联通,那么里面的 IP 列表,除了一些特殊情况外(ANYCAST 或者外拉带宽以及卫星上网等等),都应该属于中国北京联通。虽然有些 ASN 数据只能准确在国家层面,但是这也比乱标要好吧?不然即使不是乱标,你也不知道该如何更新数据。

  而且如果我花足够的精力把所有的 ASN 都标注完了,那么我只要看所有的 ASN 的数据变化情况,就可以据此被动更新了,当然也有特殊情况,比如卫星上网,但是大部分的 IP 用这个方式维持更新即可。

  高春辉:我们都要承认,目前的互联网很庞大,而且有几万家公司在参与维护建设,在网络质量以及各方面,差别都很大。比如在本地的两个网络没有直连线路的话,绕路其它城市的事情,非常普遍。

  所以即使能够拿到很好的数据,最终也还是需要人工参与的,因为总有很多特例出现,比如卫星上网,或者 VPN 联网等等吧。

  在这个角度,我认为这个事情是个很重的事情。有专职的人维护的大公司都未必做得好,更别提只让人兼职去维护的小公司了。

  2014 年 11 月,基于对数据已经做了整体梳理的情况下,在微博上发表了第一篇长文章。

  2014 年 12 月,有几十家家付费客户,比较大型的客户有豌豆荚、小米、缔元信、乐蛙、百姓、又拍云、口袋通、51DNS、饿了吗、知道创宇、寻医问药、BILIBILI、边锋、17CE、新数网络、联众游戏、丁香园、陌陌、YY、迅雷、2345、简网、久游、7K7K、粉笔、汽车之家、七牛、云测等等。

  :目前正在积极寻找愿意一起维护这个 IP 库以及更多数据以及服务的小伙伴,另外也在准备上线更多的数据内容。基础数据在很大情况是很有挑战的,做好了,可以惠及全行业。是个值得数据控一起搭伙的事情。IP 数据库主要用于广告投放、精细化管理等,IPIP.NET 的记录条目已经达到了 15 万条。 我们也在寻求与朋友以及行业的伙伴们一起寻找更多的合作机会。

  另外,除了城市级数据库,我们还在研发街道级数据库,也就是 IP 的定位精准到具体的街道、小区、甚至楼座,这种服务可以用于给访问者画像(通过他的所在区域分析其行为习惯、生活背景等等),在大城市比如北上广深会有较高的需求,而且也会选择城市里比较大的区域,比如北京的海淀区、朝阳区等等。和城市级数据库销售模式(全库整体出租服务)不同,街道级数据库可能会按照 API 访问次数收费。

  :创业多次,也许不够成功,但总算比上不足,比下有余,自己心安即可, 而且做的事情基本不重复,总是有挑战有需要进一步的空间的。我最不喜欢的就是停在一个事情上不能进步,换句话说有点喜新厌旧,但是一旦做进去,也不会轻言放弃,而且不愿在太多事务性事情上花费太多时间。

  : 我觉得创业最大的事情是方向问题,尤其在中国,国外相对还比较百花齐放。 一个最经典的例子就是国外的人看到加油站,会在周边建超市、饭店,尽量做生态圈共同发展,中国这里是你建加油站,过一段时间,周围都是加油站。 而且在中国,还要直接面对 N 多大公司的直接竞争。第二就是资金。而这个和第一个密切相关马报图!如果不做热门的事情,想拿到钱,很难很难。中国几乎没有天使投资人,只有早期投资人。

  第三是伙伴,现在的伙伴们,非常的现实,想找到有共同语言并且可以共同患难与共的非常难,往往是死道友不死贫道。

  也许我说的非常残酷,但是基于创业的失败率和第一次往往是失败的断言,这些都是很现实的问题。无论你我,都要面对。

  但是,这几年也算有些进步,比如 30 岁难题,逐渐变成了 35 岁难题,我也相信随着时间的推移,经验的价值会更多的显现出来,而不仅仅是青春饭。

  而且做技术行业的一些创业,不管是代码方向的、社区方向的,还是招聘方向的,也算是因为用户群的逐渐扩大,行业的火爆,也逐渐有人愿意去投资了。 也许可以说,这是最好的时代,也是最坏的时代,好坏在于你心,更何况是随波逐流混工资赌公司的发展如何,还是发挥自己的热情和能力给这个行业添砖加瓦,都在一念间。

  高春辉,金山卓越电脑资讯站创始人,天下网创始人,手机之家网站创始人,ECSHOP 软件创始人,