更新时间:2021-08-26 10:10:23
深度学习清理人员
通过在旧金山湾和附近的支流上发送无人机,SFEI在最初的尝试中收集了约35,000张图像。
“如此迅速地覆盖这么多土地实在令人惊讶,” Hale说道。但是他的兴奋很快消失了,因为在合理的时间内处理大量数据的现实设置为:“我们花了将近一个月的时间来处理这些图像。”
Hale和他的团队使用2,000个注释来描述各种垃圾颗粒,他们正在训练一种开源TensorFlow机器学习算法,以识别在这35,000张图像中描绘的每个垃圾颗粒的类型,数量和位置。
为了加快分析速度,SFEI与Kinetica(一家参与Oracle for Startups计划的数据分析初创公司)合作。Kinetica的CMO Daniel Raskin说,它将SFEI的垃圾检测模型放入Docker容器中,然后将其引入Kinetica的“主动分析”工作台。然后,使用Python API,Kinetica将图像流式传输到表中,可以在其中存储,分类和标记图像。
“我们不只是摄取这些图像并将其分发到我们的平台中,” Raskin说。“我们还运行SFEI的垃圾检测模型,以对所有击中我们数据库的图像进行分类。”
这给SFEI不仅仅是一个庞大的图像目录。加州水质看门狗现在可以根据其地理位置和垃圾状况将35,000张图像可视化。
最初,Kinetica使用托管的Kubernetes在其自己的4核计算机上从分布式CPU框架运行SFEI的部署。“我们花了大约10天的时间来运行整个模拟,”从事SFEI项目的Kinetica的解决方案工程师Nick Alonso说。即使使用单个GPU将应用程序移至服务器(非常适合机器学习工作的处理器)之后,模拟仍然花费了一周的大部分时间。
然后,Kinetica决定使用八个V100 GPU 在Oracle Cloud Infrastructure上运行SFEI的全部工作负载。“我们不再谈论运行模拟的日子,”阿隆索说。“确切地说,我们需要几个小时才能完成工作-大约需要18小时26分钟。”