分析2000余张马蜂窝游记照片,只为找到泰国芭提雅最美“小姐姐”
正文
时间: 2019-11-28 10:46
来源: 菜鸟学python
相信去过泰国旅游的小伙伴,无论是泰国的美食还是美景都让大家流连忘返。另一深刻印象便是泰国人妖啦,据老司机透露,泰国人妖秀场主要分布在芭提雅、普吉岛、曼谷、清迈等地。
而这其中尤其又以芭提雅的蒂芬妮人妖秀最为出名,每年的泰国人妖选美大赛,选出的冠亚季军,就在芭提雅的蒂芬妮人妖秀剧场里。本文主要基于蒂芬妮人妖秀的游记图片进行分析,寻找出蒂芬妮人妖秀最美人妖。
1. 准备工作
本文涉及知识点较多,主要包括:爬虫、人脸识别、图像处理等。
编程环境为:anaconda。需要安装的依赖库有:
- selenium
- baidu-aip
- opencv-python
本次使用的浏览器为Chrome浏览器,由于Selenium中没有自带Chrome驱动,需要单独下载Chromedriver.exe最新版本,下载地址为:http://npm.taobao.org/mirrors/chromedriver/
2. 数据获取
本次数据获取主要基于马蜂窝旅游网,进行图像数据获取。
1). 利用selenium进行爬取
目前只有极少数网站会对Selenium中的WebDriver进行识别反爬,本文采用Selenium控制浏览器来访问网页,这种方式虽然速度较慢,却能够自动解析网页中的Java代码,其访问行为与人类无异,难以被反爬虫程序识别。页面解析不作过多介绍,程序如下:
在保证网络稳定的情况下,整个下载过程还是相对顺畅的。至此,除去异常图片,共下载图片2004张(这种方法的确很耗时)。
3. 颜值打分
1). 人脸检测并对颜值打分
纯手工打造一款人脸检测及颜值打分系统是一个庞大的工程,还好现在市面上已经有了一些免费的产品。优点当然是方便,绕过了算法,一个函数搞定。缺点也比较明显,无法搞清楚其对颜值的评判算法。不过颜值这个东西也是仁者见仁智者见智啦。
登录百度AI开放平台(http://ai.baidu.com/),进入控制台—人脸识别栏目,创建相关应用,最终获得APP_ID、API_KEY、SECRET_KEY三个数据。
2). 调用百度api
获取每张图片的颜值评分。通过循环读取每张图片,首先判断图片是否含有人脸(不含人脸的图片过滤掉);然后判断每张图片的人脸颜值得分;再将“图片地址、图片颜值得分”存入数据框;得到含有“imagePath、beautyScore”数据框;最后再按颜值得分由高到底排序,得到颜值最高人妖图片。
程序运行结果如下:
从结果来看,含有人脸的图片共969张:
最高得分为93.1分(这也是唯一一位得分90分以上的人妖);
80分以上25张(占比2.58%);
60分以上300张(占比30.96%)
4. 图像分类处理
调用OpenCV图像处理库,将得分在80分以上的人妖图片单独存在一个文件夹。
下面让我们来看一看得分在80分以上的人妖都长啥样。
不知道有多少小伙伴去过泰国旅游,泰国还有很多不错的景点,尤其是旅游热门城市普吉岛。最后弱弱的问一下,有看过人妖表演的请在留言区吱一声。
另外:本文的爬虫内容仅供个人学习使用,纯属练习Python提高技术。
责任编辑: 平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
摘要与附加信息
本文主要分析2000余张来自马蜂窝旅游网的游记照片,旨在寻找泰国芭提雅最美的“小姐姐”——人妖。文章详细描述了在泰国旅游中人妖秀的魅力,特别提及知名的蒂芬妮人妖秀及其选美大赛。作者通过数据获取和图像处理技术,利用编程环境与特定的库,完成了包括爬虫技术、图像识别等多个阶段的工作。该文提供了关于人妖颜值的评分、数据统计及图像分类的具体细节,并附有相关操作的程序示例。文章结尾提到,所有数据获取仅供个人学习使用,并鼓励读者分享自己的观感和体验。
附加信息 [Processed Page Metadata]
Attribute | Value |
---|---|
Filename | www_分析2000余张马蜂窝游记照片,只为找到泰国芭提雅最美“小姐姐”_-_搜狐.md |
Size | 5254 bytes |
Archived Date | 2024-11-22 04:45:32 |
Original Link | https://www.sohu.com/a/357067240_752099 |
Author | 未知 |
Region | 泰国 |
Date | 2019-11-28 |
Tags | 人妖, 旅游, 芭提雅, 数据分析, 图像处理, 爬虫技术, 颜值评分, 蒂芬妮人妖秀 |
> | |
> 本文由跨性别中文数字档案馆归档整理,仅供浏览。版权归原作者所有。 | |
> |