1. 服装类别和属性预测集
- 289,222 张服装图片 clothes images;
- 50 个服装类别 clothing categories
- 1,000 个服装属性 clothing attributes;
- 每张图片都标注了 bounding box 和服装类型 clothing type.
1.1. 数据文件说明
下载文件包括:
Img - 服装图片文件夹 - 共 289,222 张图片,JPG 格式. 图片的最长边 resize 到 300,保持原始图片的长宽比 aspect ratios.
list_bbox.txt - 服装 bbox 标注 - bbox 标注: [x1, y1, x2, y2],[x1, y1] 左上角位置,[x2, y2] 右下角坐标.
list_category_cloth.txt - 服装类别 Category (50 类) - 分为上身服装、下身服装、全身服装三类,其 ID 分别为 1,2,3. 服装类别根据其顺序依次表示.
服装类别Category预测问题可以看做是 1-of-K 分类问题.
list_category_img.txt - 服装类别 Category 标注
list_attr_cloth.txt - 服装属性 Attribute (1000 种) - 服装属性Attribute类型包括五类:纹理-Texture,面料-Fabric,形状-Shape,部分-Part 和风格-Style,其 ID 分别为 1,2,3,4,5.
list_attr_img.txt - 服装属性 Attribute 标注 - 服装属性标注信息,是 1000 维的向量,每维分别表示是否存在某服装属性Attribute,1 表示存在,-1 表示不存在,0 表示未知Unknown.
服装属性Attribute预测问题可以看做是多标签标注 Multi-label Tagging问题.
list_eval_partition.txt - 服装图片数据集的划分
train - 训练图片集;val - 验证Validation图片集;test - 测试图片集.
1.2. 服装类别Category
50
category_name category_type
Anorak 1 带风帽的厚茄克;防水布;滑雪衫
Blazer 1 运动夹克,运动上衣
Blouse 1 短上衣;女衬衫;宽松的上衣;工装
Bomber 1 Bomber Jacket 飞行员夹克
Button-Down 1 (衬衫)领尖有纽扣的,纽扣领的
Cardigan 1 开襟羊毛衫
Flannel 1 法兰绒衣服;法兰绒,绒布;毛巾;
Halter 1 吊带
Henley 1 亨利
Hoodie 1 连帽衫;带帽夹克;
Jacket 1 短上衣,夹克
Jersey 1 针织
Parka 1 风雪大衣;派克大衣
Peacoat 1 水手穿的厚呢短大衣
Poncho 1 斗篷
Sweater 1 毛衣,运动衫
Tank 1 tank top 背心装
Tee 1 T恤;短袖圆领运动衫(等于T-shirt)
Top 1 上衣
Turtleneck 1 高领绒衣;高翻领,圆翻领
Capris 2 女用紧身裤
Chinos 2 斜纹棉布裤
Culottes 2 女裙裤
Cutoffs 2 拼接款
Gauchos 2 南美牛仔
Jeans 2 牛仔裤;粗斜纹棉布裤
Jeggings 2 牛仔样式打底紧身裤;是jeans(牛仔裤)和leggings(打底紧身裤)两个词的合成词;
Jodhpurs 2 骑马裤,短马靴
Joggers 2 慢跑裤
Leggings 2 (女式)紧身裤
Sarong 2 马来群岛土人所穿的围裙,布裙
Shorts 2 短裤
Skirt 2 裙子;边缘;(连衣裙、外衣等的)下摆
Sweatpants 2 运动裤
Sweatshorts 2
Trunks 2 (男式)游泳裤
Caftan 3 有腰带的长袖衣服
Cape 3 披肩;斗篷
Coat 3 上衣,外套
Coverup 3
Dress 3 连衣裙
Jumpsuit 3 连衣裤,(尤指女式)连衣裤
Kaftan 3 土耳其式长衫
Kimono 3 (日本的)和服;和服式女晨衣
Nightdress 3 (妇女或孩子穿的)睡衣,睡袍
Onesie 3 连身衣
Robe 3 长袍;罩袍; 浴袍;睡袍
Romper 3 背心连裤子的衣服
Shirtdress 3 (上身像衬衫的)衬衣式连衣裙
Sundress 3 太阳裙,背心裙
实际上应该只有 46 类服装类别:
[ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 39, 40, 41, 42, 43, 44, 46, 47, 48]
每类服装有的图片数:
[160, 7495, 24557, 309, 330, 13311, 324, 17, 716, 4048, 10467, 748, 676, 97, 791, 13123, 15429, 36887, 10078, 146, 77, 527, 486, 1669, 49, 7076, 594, 45, 4416, 5013, 32, 19666, 14773, 3048, 1106, 386, 54, 2120, 17, 72158, 6153, 126, 2294, 70, 150, 7408]
可视化:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
datas = open('list_category_img.txt').readlines()[2:]
print 'Num of DeepFashion Category Images: ', len(datas)
ann_labels = [eval(data.split(' ')[-1].strip()) for data in datas]
category_labels = np.unique(ann_labels)
print 'Num of DeepFashion Category: ', len(category_labels)
label_counts = [ann_labels.count(label_temp