banner

客户案例

让机器能说会写,训练更灵敏的OCR模型和ASR模型

为了实现这一目标,百度需要庞大而多样的数据集来训练他们的模型。他们的团队需要采集和标注稀缺小语种图片、语音以及手写体。

问题&解决方案

对于机器听说读写能力的提升,数据量是极大的瓶颈

问题:稀缺语言数据采集困难。由于该项目主要是对稀缺语言进行图片、语音以及手写体的采集,因此需要懂该稀缺语言的人在当地进行收集;此外,由于地域问题以及采集需求复杂,数据的采集与收集方式成为一个比较大的问题;最后,多形式与多种复杂场景的数据给质检带来比较大的难题。

解决方案:星尘数据通过调用在全球的采集资源,寻找最适合的采集伙伴对稀缺语言进行采集;在短时间内为了适配采集和标注的需求开发更加适合的软件以满足采标的需求;通过多层质检和动态监控保障稀缺语言标注的质量。

未来

更精准的OCR系统和ASR系统

星尘数据采集及标注系统可以帮助百度训练更精准的OCR系统和ASR系统,未来将能服务于更多的场景,在不同场景下提高效率。

某大型AI科技公司研发主管

"在过往合作中,星尘能够支持我们定制化程度超高的数据需求,并依靠其丰富的海外资源,综合采集、标注、质检、输出等环节,构建专业的一站式数据服务解决方案。"

了解更多

我们将为您定制专属的服务内容并评估预算

填写需求表格
了解价格