facebook是美国的一个社交网络服务网站,至今注册用户已超越20亿,月活用户更是惊人的突破3亿。
这样庞大的一个社交类网站,每日产生的社交数据当然也是非常可观,而这些社交数据,更接近口语,所以是比较好的一些英文语料数据。
然而,面对这样好的一个语料来源,它的下载难度也是超越了我的预期。
起初,因为使用facebook需要fq的原因,我们放弃了从app端解析数据的方式。
因为这种方式需要手机app端和电脑连接在同一个网络下,并且手机端需要设置代理为电脑ip。然而经过测试,这样设置以后手机端不能正常fq,这个问题有待进一步解决。
除了app端,这边便打算通过网页端直接去获取数据。
分析发现,通过 facebook /profile.php?id=5这种形式的链接可以直接跳转到用户的8797威尼斯老品牌主页, facebook /chrishughes
8797威尼斯老品牌主页下面有以下信息
?
点击左边框内的链接,可以获得以下语料数据,右边框内则是该用户的一些关联用户。
这样一来,我们便有了第一个版本的下载策略。
通过遍历用户id的方式,访问到用户的8797威尼斯老品牌主页下,然后根据用户的一些关联信息获取一些名人和营销帐号下的帖子信息以及该用户关联的用户信息。
这样一来,就能形成一个循环下载,循环中我们能够不断的扩充自己的facebook用户数据和帖子数据。
于是,通过这种方式,我们编写好了初步的下载程序,实际一下载,傻眼了。
facebook会封ip,就是出现验证码来需要输入,类似以下这样的:
显然,这样的验证码,我们这边暂时还解决不了。
既然解决不了验证码,那只能选择放弃被封ip,启用新的ip方法。
这边估算是平均一个ip只能下载1mb左右的语料数据,然后就会被封,这样一来,如果需要每天下载1g数据的话就需要1000多个ip。
虽然目前我们这边有代理ip库,但因为是免费的,所以稳定性和可用性都还是比较差的。
再加上facebook需要fq的缘故,经过测试,实际可用的代理ip只有不到5个,显然,这样肯定行不通。
经过讨论,这边想通过使用付费代理的方式来提高ip的可用性,想着付费的ip应该会好很多把。
然后,经过两天的查找,得到的回答几乎是一样的,能够fq的ip是没有的。
好奇,自己这边使用的免费收集的代理都有能用的,收费的怎么会没有呢。
经过考虑,认为国外的ip应该是可以实现fq的,但是估计实际的fq可用率不太高。
于是这边购买了一些网站的代理ip来实际测试,发现果然如此,实际的可用率比我们这边的免费代理高的不多,也就维持在10个左右,但是稳定性确实比我们的高。
这样一来,每天的下载速度也就10mb左右,这样肯定是不行的。
(备注:这里发现并不是贵的代理质量就比较好,测试发现 66ip /和 daxiangdaili /这两家还是比较好用的,也比较便宜。当然这边测试的是能够用来fq的ip,可能具体使用时需要具体分析把)
通过网页直接获取数据的方式行不通,因此,这种方式只能选择放弃。
因此,现在只剩下最后一种方式,通过facebook官方提供的api来获取。
这种方式其实之前也尝试过,但是发现api需要一些用户信息,而且只能看关注的用户信息,所以当时就没有继续深究下去。
但是现在一想,比起其他的方式一天只能获取10mb左右的数据,api的方式肯定会多一点(因为实在是没什么别的办法了)。
花了一天时间,好好的看了一下facebook的api, developers.facebook /docs/graph-api/reference/
找到了一些可用的api接口:
graph.facebook /v2.9/{用户id}/feed?access_token={开发者access_token} ? 获取用户发的帖子,通过此接口得到语料数据
graph.facebook /v2.9/{用户id}/likes?access_token={开发者access_token} ??获取用户感兴趣的人,通过此接口得到关联用户
graph.facebook /v2.9/{用户id}/comments?access_token={开发者access_token} ? 获取用户帖子的评论,通过此接口得到具体某一个帖子的评论,也就是语料数据
想到的下载策略是:先找一个用户,然后通过关联用户接口获取第一批用户,再通过用户id循环获取用户的帖子和关联的用户即可实现下载。
因此这里的重点就是开发者access_token,这个可以通过注册开发者来获取,因此这里就不在赘述了。
以上,就是此次facebook下载的一些总结和记录。
转载于: www blogs /niansi/p/7107455.html
国际版双语言任务点赞源码系统英文越南版脸书任务点赞系统网站源码(经检查测试,代码不加密) ,这是基于thinkphp的国际版双语言任务点赞源码系统越南版脸书任务点赞系统源码,国际版双语言任务点赞系统越南版脸书任务点赞系统,一款双语言的任务点赞系统,主打越南语的任务点赞系统。
源码大小:140mb
源码类型:php源码
显示语言: 其他语言
运行环境:php mysql tp
源码演示: dz1.niuzen
?
?
?
前言 国内app出海,需要接入各种海外三方平台的分享,登录等。简单整理做一个备忘录。
对应的应用图标 对应的包名
平台应用包名facebookinstagramcom.instagram.android-messengercom.facebook.orcagooglegoogle playcom.android.vending-google console--firebase-tiktoktiktokcom.zhiliaoapp.musicallytwittertwittercom.twitter.android
简单介绍
instagrm(类似朋友圈) instagram(照片墙)是一款运行在移动端上的社交应用,以一种快速、美妙和有趣的方式将你随时抓拍下的图片彼此分享
messenger (类似微信聊天) [1] 是桌面窗口聊天客户端,允许客户进行聊天、接收通知并从电脑桌面上阅读新鲜事
facebook developer 平台 是facebook提供的一个快速接入旗下软件服务的管理后台
twitter 关于名字twitter的来历,twitter是一种鸟叫声,创始人认为鸟叫是短、频、快的,符合网站的内涵,因此选择了twitter为网站名称 twitter被形容为“互联网的短信服务”。
google 谷歌公司(google inc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎公司
google play google play又称play store(play 商店),前称为android market,是由google公司经营开发的数字化应用发布平台。
google console google play 的后台管理平台
firebase firebase是一家实时后端数据库创业公司,它能帮助开发者很快的写出web端和移动端的应用。自2014年10月google收购firebase以来,用户可以在更方便地使用firebase的同时,结合google的云服务。
tiktok tiktok是字节跳动旗下短视频社交平台,于2017年5月上线 [1] ,愿景是“激发创造,带来愉悦( inspire creativity and bring joy)”。
facebook 平台快捷入口
1.进入开发者平台 developers.facebook /apps/应用编号/dashboard/
2.不同应用类型支持添加的产品 developers.facebook /docs/development/create-an-app/app-dashboard/app-types
3.应用事件sdk developers.facebook /docs/app-events/getting-started-app-events-android
4.广告助手 developers.facebook /tools/app-ads-helper/
5.事件管理后台
facebook /events_manager2/list/app/应用编号/test_events?act=xxx
6.meta business 平台
business.facebook /overview/
还没有评论,来说两句吧...