Распознавание речи в наше время задача более-менее решённая – конечно, зависит от качества звуковой дорожки, количества говорящих, наличия шумов и т.д., но в общем распознавание звука в текст работает, и найти в тексте «запрещённые» слова (что бы вы ни имели в виду) с какой-то разумной степень надёжности вполне возможно. Но надо понимать, что «реальное время» будет не совсем реальным: любой программе (как и человеку) нужно «услышать» слово (хотя бы его начало), чтобы понять, что оно «запрещённое» и запикать его.
Если вы можете себе позволить задержку в несколько секунд (например, делаете трансляции), то задача решаемая. Если нужен честный риалтайм (видеоконференции) – хорошо сделать в лоб не получится, задержка будет мешать. Теоретически, можно попробовать научить программу «предсказывать» плохие слова (по предшествующему контексту, по мимике и т.д.), но это значительно сложнее и наверняка будет плохо работать. Не знаю, пробовал ли кто-то делать такое.