Data Labeling
Для CV и NLP нужны размеченные данные, в связи с этим появилась новая технологи data labeling (нанесение этикеток на данные, аннотация). На данный момент никаких средств для автоматизации этого процесса нет и в обозримом будущем не будет, поэтому эту нудную работу (handmaid data labeling) будут вручную выполнять низкоквалифицированные работники. Их можно назвать «синими воротничками» индустрии AI. Рабочие должны выполнять вручную огромный объем работы, например, аннотация одного человеческого образа требует указания от 15 до 40 точек и делается это все обычными средствами человеко-машинного интерфейса. Для разметки изображений сейчас есть и свободно распространяемые технологии (Sloth, Visual Object Tagging) и коммерческие (Diffgram Supervisely), и другие. Список средств для разметки документов, используемых при обработке текстов на естественных языках NLP, существенно длиннее.