谷歌开源超大型视频数据库，含800万视频（附技术报告）

新智元

1 新智元编译1

来源：Google Research

编译：弗格森

AI World 2016世界人工智能大会 ❶ 业界领袖回溯60年AI历史，全球对话人工智能未来挑战，权威发布2016世界人工智能名人堂及中国人工智能产业发展报告；❷ 国际大咖“视频”远程参会， Bengio和李飞飞联袂寄语中国人工智能；❸ 探秘讯飞超脑及华为诺亚方舟实验室，最强CTO与7大研究院院长交锋；❹ 滴滴CTO与百度首席架构师坐镇智能驾驶论坛，新智元三大圆桌阵容史无前例；❺ 中国“大狗”与"X-Dog"震撼亮相，龙泉寺机器僧“贤二”卖萌。

9月28日，谷歌在官方博客上宣布，将含有800万个Youtube 视频URL 的视频数据库开源，视频总时长达到了50万个小时。一并发布的还有从包含了4800个知识图谱分类数据集中提取的视频级别标签。

详细技术报告下载，请在新智元后台回复0929下载。

这一数据库在规模和覆盖的种类上都比现有的视频数据库有显著提升。例如，较为著名的Sports-1M数据库，就只由100万个Youtube 视频和500个运动类目。谷歌官方博客上说，在视频的数量和种类上，Youtube-8M代表的是几乎指数级的增长。

“为了保证标签视频数据库的稳定性和质量，我们只采用浏览量超过1000的公共视频资源，随后，我们会构建一个多样化的词汇类目，这一类目在视觉上是可以观察得到的，也足够频繁。词汇的构建结合了频次分析、自动过滤、人为评价验证，并分为24个垂直分类”，谷歌博客写道。

下图是数据集的首页截图，展示了数据集的规模和多样性。

要在Youtube-8M 规模的数据库上理解视频，一般要求千万亿字节的视频存储和几十个CPU的消耗。未来让受计算机资源所限的研究者和学生也可以用上这一数据库，谷歌们对视频进行了预处理，并提取了帧级别的特征。使用的是最新的深度学习技术——通过ImageNet训练的开源 Inception-V3 图像注释模型。

这些特征的提取是在1帧每秒的瞬时分辨率上完成，从190万个视频帧中提取，并被压缩到可以放到一个硬盘中（小于1.5T）。

这样以来，只需要不到一天的时间，就可以下载这一数据库并在训练一个基本的TensorFlow模型。