Скачать mspeech для windows 10 на русском - Доктор Windows

MSpeech — программа для распознавания голоса с последующим его преобразованием в текст или выполнением заданной пользователем команды. Кроме того, приложение может использоваться и в обратном направлении — для преобразования текста в голос.

MSpeech — условно-бесплатная программа с ограниченным функционалом (но имеется возможность бесплатно получить полнофункциональную версию). Подходит для компьютеров под управлением Windows XP, Vista, 7, 8, 8.1 и 10 (32 и 64 бит). Интерфейс программы выполнен на русском языке.

Для распознавания голоса программа MSpeech использует встроенный модуль Google Voice API (т.е. для работы приложения требуется доступ в интернет). В его задачу входит отправка записанного голосового сообщения на сервер Google, где оно обрабатывается (транскрибируется в текст) и отправляется обратно на пользовательский компьютер в виде текстового сообщения. Благодаря Google Voice API программа MSpeech способна распознавать более 50 языков, включая русский.

Для ввода звука (голоса) в приложении предусмотрен собственный звукозаписывающий модуль, которым можно управлять посредством горячих клавиш. Также через программу можно транскрибировать голос из ранее созданных аудиозаписей, но для этого придется внести соответствующие настройки в системные параметры Windows, отвечающие за управление микрофоном (нужно задействовать функцию «Прослушать с данного устройства» в свойствах микрофона).

Однако у Google Voice API есть недостаток — для работы с сервисом пользователю может потребоваться создать специальный ключ API (API key Google Speech), что можно сделать на одном из сайтов известного поисковика. Также у сервиса Google Voice API есть ограничение на бесплатное использование — общая продолжительность отправляемых звукозаписей не должно превышать 60 минут в месяц. За дальнейшее распознавание голоса требуется оформить платную подписку.

Функции MSpeech

Помимо основной функции по распознаванию голоса, в возможности программы MSpeech также входят:

Возможность создания неограниченного количества голосовых команд. Всего их 5 категорий — запуск, закрытие и остановка процесса программ, запуск программ с параметрами командной строки, а также запуск функции преобразования текста в голос (синтез речи).
Функция преобразования текста в голос имеет собственные настройки. Пользователь может выбрать одну из 5 систем синтеза речи, включая стандартную Microsoft SAPI, которая может работать без интернета. Все прочие системы — онлайн (сервисы от Google, Yandex, iSpeech и Nuance).
Возможность передачи преобразованного из голоса текста в текстовые поля любых запущенных программ путем использования метода WM_SETTEXT +EM_REPLACESEL, WM_PASRE, WM_CHAR, WM_PASTE (MOD) или WM_COPYDATA (платная функция). Данный функционал предназначен, в первую очередь, для программистов с целью организации взаимодействия своих разрабатываемых программ с MSpeech.
Автоматическая коррекция текста перед отправкой в поля ввода других программ (замена слов по словарю и изменение первых букв предложений на заглавные буквы). Это еще одна платная функция.

Как получить MSpeech без ограничений по функционалу?

Разработчик MSpeech на своем официальном сайте выложил исходный код своей программы на языке Delphi. Исходники можно скачать и самостоятельно скомпилировать в компиляторе «Delphi XE6» или более поздних версиях. Скомпилированная в итоге программа MSpeech не будет иметь функциональных ограничений (не относится к ограничениям сервиса Google Voice API).

Источник

С помощью этой программы вы сможете голосом выполнять различные команды (альтернатива VoiceMacro). Для этого программа использует Google Voice API поддержка более 50 языков. Некоторые возможности программы: ограничение на команд нет, указать уровень сигнала, при котором будет активирована запись; распознанный текст, может быть передан другим программам в поле ввода; для синтеза голоса можно использовать (Microsoft SAPI (Бесплатный синтезатор RHVoice), Google Text-To-Speech, Yandex Text-To-Speech, iSpeech Text-To-Speech, Nuance Text-To-Speech). Программа бесплатная но с ограничениями:

Лицензия необходима для:
1) Активации функций коррекции текста при передаче в поля ввода других программ.
а) Замена слов по списку.
б) Изменение первых букв предложений на прописные (Работает только для Русского и Английского текста).
2) Отправка текста в неактивные окна программ (Осуществляется с помощью метода WM_COPYDATA). Данный функционал
обычно необходим разработчикам программ, для организации взаимодействия своей программы с MSpeech.

Скачать:

Источник

Любой пользователь компьютера может столкнуться с ситуацией, когда необходимо голосом ввести какой-либо текст на компьютере. Помимо стандартных решений Windows, существуют сторонние приложения, позволяющие сделать это. Предлагаем рассмотреть лучшие из них.

MSpeech

Первым делом рассмотрим бесплатную утилиту MSpeech от независимого разработчика Михаила Григорьева, распространяющего свой продукт бесплатно с открытым исходным кодом. В основе решения лежит технология Google Voice API, предназначенная для распознавания человеческой речи и дальнейшего ее преобразования в текст. Распознанный текст вводится в специальное окно, откуда его можно легко перенести в другие приложения разными способами. Поддерживается порядка 50 различных языков, включая русский. Доступны горячие клавиши для удобной активации и завершения записи.

Предусмотрен простой текстовый редактор, в котором можно выполнить первичную коррекцию полученного текста: заменить определенные слова другими или изменить первые буквы предложений на прописные. В качестве источника звука можно использовать любое устройство, подключенное к компьютеру. Если их несколько, то MSpeech предложит выбрать подходящее. Меню программы поддерживает русский язык. Помимо этого, она совместима со следующими интерфейсами: Microsoft SAPI, Google Text-to-Speech, iSpeech Text-to-Speech, Yandex Text-to-Speech и др.

Скачать последнюю версию MSpeech с официального сайта

Читайте также: Голосовой ввод текста на компьютере

Lossplay

На очереди еще одно простое приложение для транскрибации, которое изначально создавалось командой разработчиков с разных стран. Сейчас в качестве создателя выступает один независимый программист, продолжающий развивать его. LossPlay можно использовать не только для перевода голоса в текст, но и в качестве обычного плеера для прослушивания музыки и других аудиофайлов. Решение поддерживает любое актуальное расширение от MP3 до WMA. Управление воспроизведением осуществляется с помощью настраиваемых горячих клавиш.

LossPlay оптимизирован для работы с текстовыми документами Microsoft Word. Распознаваемый текст вводится в программе без участия пользователя. Помимо этого, предусмотрена функция автоматической вставки тайм-кодов всех фраз. Интерфейс рассматриваемого решения представлен в виде привычного плеера с дополнительными функциями. При этом с меню справится даже начинающий пользователь. LossPlay распространяется на бесплатной основе на русском языке.

Скачать последнюю версию LossPlay с официального сайта

Читайте также: Набираем текст голосом в Документах Гугл

Transcriber-Pro

Transcriber-Pro — программа от российских разработчиков, предназначенная для ручной расшифровки аудио и видеофайлов в текст. Присутствует встроенный текстовый редактор со всеми необходимыми функциями для качественной транскрибации: вставка временных меток и дикторов, простая навигация по записи, коррекция без повторного прослушивания, формирование профессиональное стенограммы и др. Управление осуществляется с помощью настраиваемых горячих клавиш, что делает решение более удобным.

Рассматриваемое приложение позволяет работать в команде над одним проектом. Предусмотрена оперативная техническая поддержка для обладателей платной лицензии. Подписка оформляется на год. На официальном сайте можно ознакомиться с системными требованиями, посмотреть наглядный видеоролик по работе с Transcriber-Pro, а также увидеть подробное руководство пользователя.

Скачать последнюю версию Transcriber-Pro с официального сайта

Читайте также: Программы для озвучки текста

Express Scribe

Express Scribe — многофункциональный инструмент для ручной расшифровки аудиозаписей, представленный в виде удобного плеера с дополнительными возможностями. В одном интерфейсе сосредоточен звуковой и текстовый модуль, что избавляет пользователя от необходимости переключаться между окнами. Среди примечательных особенностей стоит отметить возможность переключаться между звуковыми дорожками, переходить к конкретным ее частям, а также добавлять заметки с тайм-кодами.

Для открытия файла можно использовать директорию компьютера, FTP-сервер, компакт-диск, электронное письмо или внешние накопители. Помимо этого, Express Scribe поддерживает портативное аудиозаписывающее оборудование. Рассматриваемое решение работает с огромным количеством звуковых форматов: WAV, MP3, WMA, VOX, AU, DSS и др. Поддерживаются расширения диктофонов Philips Digital Recorder, GSM 6.10, ALaw, DSP и т. д. Стоит отметить, что некоторые форматы недоступны в демо-версии, а русский язык здесь вообще не предусмотрен.

Скачать последнюю версию Express Scribe с официального сайта

Voco

Voco — простая утилита для автоматического распознавания человеческой речи и преобразования в текст. Она работает в фоновом режиме, а соответствующий значок можно найти в трее. Микрофон запускается при нажатии комбинации горячих клавиш, после чего пользователь произносит нужные слова и уже через несколько секунд они появляются на экране. Благодаря совершенным алгоритмам система практически не ошибается, а скорость ее работы превышает опытных стенографистов.

Механизм Voco позволяет выставлять знаки препинания голосом и переводить курсор на новую строчку или абзац. Помимо этого, предусмотрена функция расшифровки аудио или видеофайла, но она доступна только в платной версии. Утилита имеет развивающийся словарный запас, который может пополнить любой пользователь. База уже насчитывает более 85 тысяч слов. Для получения демо-версии необходимо заполнить специальную анкету. Присутствует русская локализация.

Скачать последнюю версию Voco с официального сайта

Это были наиболее надежные и популярные средства для перевода голоса в текст. Одни из них работают в автоматическом режиме, где достаточно загрузить аудиофайл или воспользоваться микрофоном, другие же представляют собой лишь вспомогательный инструмент, значительно упрощающий ручную транскрибацию.

Источник

Содержание

MSpeech — голосовой ввод

программа для распознавание речи используя Google Voice API

Разработчик: Михаил Григорьев

Передача распознанного текста в поля ввода других приложений разными методами. Более 50 языков
Синтез голоса через Microsoft SAPI (Бесплатный синтезатор RHVoice), Google Text-To-Speech, Yandex Text-To-Speech, iSpeech Text-To-Speech, Nuance Text-To-Speech.
Активация записи по заранее заданному уровню сигнала.
Неограниченное количество команд, которые можно добавить через удобный интерфейс.
Передача распознанного текста в поля ввода других приложений
Коррекция текста после распознавания и до передачи в поля ввода (Замена слов по списку, Изменение первых букв предложений на прописные).

по умолчанию устанавливает в папку C:Program Files (x86)MSpeechMSpeech.exe

В настройках сразу выбрать микрофон.

Если что-то пошло не так с распознаванием, наверное, можно восстановить текст из сохраненного звукового файла:

C:UsersAdminAppDataLocalTempout.flac

Можно указать свой ключ Speech API

Последняя версия MSpeech-Setup-1.5.10.exe — вылетает у меня с ошибкой 217 при запуске. Пришлось откатить на 1.5.9.

Лог

C:UsersAdminAppDataLocalMSpeechmspeech.log

В логах прекрасно видно что было распознано — подключенной вебкамеры достаточно, но со вставкой текста проблемы.

Лог можно открыть из контекстного меню иконки.

Настройки

Можно включить в настройках всплывающие сообщения — показывает сообщение, если текст не распознан

Можно включить распознование через горячую клавишу, не отрываясь от текущего активного окна, либо с помощью кнопки в окне «Начать запись»

Режимы вставки в программы

WM_PASTE
WM_PASTE (mod)
WM_CHAR
WM_SETTEXT + REPLACE

У меня заработал только один режим WM_CHAR в Опера : Горячая клавиша + говорю текст + Горячая клавиша.

Не заработали — опера, far, Libre Word

UPD.

Блокнот работает во всех режимах вставки: Ctrl+Alt+F10 — говорю — Ctrl+Alt+F10 — вставляется
работает в режиме WM_CHAR
- Word 2007
- Excel 2007
- Опера + Dokuwiki редактор текста

Можно указать класс окна, в который посылать распознанный текст (не экспериментировала с этим)

SearchAppClassName.exe — утилита для поиска класса окна (в папке программы)

Общий вывод — гораздо лучше пользоваться QTranslate (кнопка с микрофончиком) и вручную копировать распознанный текст. Или самой написать аналогичную утилиту, или допилить исходники

09.01.2021 — удалось настроить голосовой ввод и выполнение команд (купила новый микрофон Fifine)

Команды

Хранятся в файле

C:UsersAdminAppDataLocalMSpeechMSpeech.cf

Запуск команд — включить команды в настройках, нажать горячую клавишу, сказать Блокнот, клавиша — откроет блокнот. удобно

Исходники

Использует libFLAC.dll для записи голоса в flac

нужна лицензия — Отправка текста в неактивные окна программ (Осуществляется с помощью метода WM_COPYDATA). Данный функционал обычно необходим разработчикам программ, для организации взаимодействия своей программы с MSpeech. — за деньги. Или самой скомпилировать исходники

Аналогично для корректировки текста — нужна лицензия.

https://github.com/cherts/mspeech — полные исходники (бесплатно) delphi

использует TDXAudioIn TDXAudioOut TFlacOut TFastGainIndicator TNULLOut TWaveIn TMP3In — регистрация в newacsrcacs_reg.pas

TMGHotKeyManager TMGTrayIcon TMGFormPlacement TMGSAPI TMGISpeechTTS TMGGoogleTTS TMGYandexTTS TMGOsInfo TMGNuanceTTS

MGSoft — отдельный проект на githib. Components:

TMGSAPI — VCL component for speech synthesis through the Microsoft SAPI;
TMGGoogleTTS — VCL component for speech synthesis through the Google Text-to-Speech;
TMGYandexTTS — VCL component for speech synthesis through Yandex Text-to-Speech;
TMGNuanceTTS — VCL component for speech synthesis through Nuance Text-to-Speech;
TMGISpeechTTS — VCL component for speech synthesis through iSpeech Text-to-Speech;
TMGTessOCR — VCL component for text recognition using TesseractOCR library;
TMGOSInfo — VCL component to obtain information about the version of the OS bit, versions of Internet Explorer, etc;
TMGButtonGroup — VCL component for organizing a group of buttons;
TMGHotKeyManager — VCL component for registering global hotkeys in the OS;
TMGSMTP — VCL component for sending SMTP mail (supports TLS and SSL);
TMGWindowHook — VCL component for processing window messages coming items — successors TWinControl (which are the windows in Windows sense), without creating components — heir;
TMGFormStorage — VCL component for saving and restoring the size and position of the form, as well as various controls on it;
TMGFormPlacement — VCL component for saving and restoring the size and position of the form;
TMGThread — VCL component for flow management;
TMGTrayIcon — VCL component for hidding programs to systray;
TMGTextReaderA, TMGTextReaderW — nonVLC component for reading large files file by reflection from the disk into memory;
TMGThreadStringList — nonVLC component-line StringList;

Источник

Чтобы управлять компьютерными приложениями собственным голосом, а также преобразовывать набранный текс в речь используйте бесплатную библиотеку Speech API. С ее помощью пользователю становятся доступны широкие возможности для распознавания и синтеза речи.

SAPI часто применяется в разных электронных читалках для прочтения книг или других текстовых документов вслух, кроме того, данная библиотека крайне полезна для юзеров с плохим зрением или ограниченными возможностями.

Для распознавания голоса продукт получает звук и осуществляет его цифровое преобразование, затем звук переводится в так называемые фонемы, далее фонемы выстраиваются в слова, причем слова, не подходящие для контекста, могут быть заменены подходящими синонимами.

С синтезом речи все обстоит иначе. Сначала слова разбиваются на фонемы, потом текст анализируется на наличие спецсимволов, цифр и пунктуации, завершающим этапом является создание цифрового звука, который при воспроизведении имитирует голос.

Помните, что изначально новые версии ОС Windows поддерживают эту библиотеку. Если операционная система ее содержит, тогда не требуется повторная установка и более того, это может спровоцировать конфликт версий.

В остальных случаях следует скачать Speech API и использовать библиотеку для распознавания или синтеза речи. Программы, работающие с ней в связке, автоматически подхватят нужные компоненты и будут корректно функционировать.

Распространяется	Бесплатно
Разработчик	Microsoft
Операционная система	Windows 2K / XP / Vista / 7 / 8 / 8.1 / 10
Язык	Русский
Размер	68 Mb

Скачать бесплатно Speech API (SAPI) 5.1 для Windows:

Версия x86/x64

Источник

Большинство людей говорит быстрее, чем набирает текст на компьютере. В итоге это может привести к неприятностям, так как из-за скорости мысли человек нередко забывает о том, что хотел сообщить. Однако с помощью голосовых помощников для ввода текста в Windows 10 на русском языке удается избежать подобных ситуаций. Такие программы ускоряют передачу информации и облегчают жизнь пользователей.

Что можно сделать с помощью голосового ввода текста

Данная функция реализуется с помощью отдельной программы, которая автоматически переводит произнесенные слова в письменный текст.

Эта технология позволяет:

переводить аудиофайлы (точнее, слова) в текст;
увеличить скорость переноса информации в компьютер (человек говорит быстрее, чем печатает);
набирать текст людям с ограниченными возможностями.

Windows 10 не поддерживает данную функцию. Для реализации технологии голосового текста потребуется установка сторонних приложений.

Для использования такой функции потребуется микрофон. Причем тип аппарата в данном случае не играет роли.

Проверка и настройка микрофона

Прежде чем приступать к использованию функции голосового ввода текста, необходимо проверить работоспособность микрофона. Для этого нужно:

Нажать кнопкой мыши на значок динамика, расположенный в правом нижнем углу экрана.
Открыть «Записывающие устройства».

Выбрать микрофон. Если этого значка нет, то нужно кликнуть правой кнопкой мыши по свободному полю и отметить пункты «Показывать отсоединенные устройства» и «Показывать отключенные устройства». Затем в новом окне следует выбрать микрофон.

Сказать в микрофон любые слова, чтобы проверить работоспособность устройства.

При необходимости можно внести изменения в стандартные настройки микрофона, включив подавление шума и другие параметры. Количество опций в данном случае определяется возможностями установленной звуковой карты.

Программы для голосового ввода

Сторонние программы упрощают перевод фраз, сказанных человеком, в написанный текст.

Dictate для MS Office

Dictate – это функция, встроенная в пакет MS Office. Чтобы воспользоваться данным инструментом, нужно:

Запустить Word и сочетанием клавиш «Win» и «H» активировать функцию.
Зайти в «Параметры» программы и включить функцию.

Данная утилита плохо воспринимает русскую речь. Поэтому Dictate используется для перевода небольших фрагментов текста. Также рекомендуется произносить фразы медленно, постоянно делая паузы.

MSpeech

Эта программа отличается простым интерфейсом и поддерживает 50 языков, включая русский. Для перевода речи в текст с помощью MSpeech нужно:

Включить программу и в настройках установить основной и дополнительный языки распознавания.

Выбрать (при необходимости) горячие клавиши для быстрого запуска отдельных функций.
Выбрать перечень программ, в которые будет передаваться текст.

Для работы с MSpeech необходим постоянный доступ в интернет.

Speechpad

Этот сервис доступен онлайн, но при необходимости Speechpad можно встроить в текстовые редакторы типа «Блокнота». В первом случае программа доступна бесплатно, во втором — потребуется подписка.

Чтобы узнать возможность Speechpad, утилиту можно интегрировать в браузер. Для этого нужно установить соответствующее расширение. После инсталляции необходимо в настройках Speechpad выбрать основной язык, на котором будет зачитываться текст.

Voco

Эта платная программа отличается от предыдущих расширенным функционалом. В частности, Voco автоматически расставляет знаки препинания согласно правилам русского языка. Также программа проверяет орфографию, используя встроенные словари.

Веб-сервисы и приложения

Такие сервисы удобны тем, что позволяют переводить голос в напечатанный текст без установки программ на компьютер. При работе с каждым приложением необходимо давать разрешение на использование встроенного (подключенного) микрофона.

Google Docs

Google Docs – это онлайн-редактор, который по функциональности не уступает MS Word. Для начитывания текста с помощью этого сервиса нужно:

Открыть Google Docs под собственным аккаунтом.

Открыть пустой файл.

Открыть меню «Инструменты» и выбрать опцию перевода голоса в текст.
Задать основной язык.

После завершения манипуляций на экране появится значок микрофона, нажав на который можно активировать данную функцию.

Speechpad

Этот сервис работает только с браузером Google Chrome. Чтобы перевести голос в текст, нужно перейти на официальный сайт Speechpad и на главной странице найти окно редактора. Далее достаточно нажать на «Включить запись». После этого можно наговаривать нужный текст.

Speechpad отличается расширенным функционалом. Сервис удобен тем, что при помощи голоса пользователи могут расставлять знаки препинания и переносить курсор на новую строчку.

VoiceNote

Этот сервис также работает только с браузером Google Chrome. Чтобы запустить VoiceNote, нужно:

Открыть окно с текстовым редактором.
Нажать на значок в виде земного шара и установить язык для диктовки.
Нажать на значок микрофона.

Как и в случае со Speechpad, VoiceNote расставляет знаки препинания с помощью соответствующих голосовых команд.

TalkTyper

Этот онлайн-редактор не уступает Google Docs. TalkTyper поддерживает 37 языков, включая русский. Но, как и предыдущие сервисы, данный работает только с Google Chrome.

Принцип ввода текста в TalkTyper не отличается от ранее приведенных. Для начала работы необходимо задать основной язык, на котором планирует говорить пользователь. После этого необходимо нажать на значок микрофона и начать диктовку. Постановка знаков препинания и перенос строк также доступны с помощью голосовых команд.

Результат диктовки остается во встроенном редакторе. Этот текст можно скопировать и перенести в другие программы.

Voice Notepad

Этот сервис, работающий только с Google Chrome, поддерживает 120 языков. Но по набору функций Voice Notepad сопоставим с другими подобными приложениями.

Данный сервис поддерживает расстановку знаков препинания и перенос строки за счет голосовых команд. Готовый текст необходимо скопировать в другую программу.

Причина, почему такие сервисы работают только с Chrome, обусловлена особенностью используемой лицензии. Последняя распространяется на технологию распознавания речи, которую разработала компания Google.

Speechertexter.com

Этот бесплатный онлайн-сервис поддерживает более 60 языков. Для пользователей смартфонов Android разработчики создали отдельное приложение Speechertexter. Программа и онлайн-сервис поддерживают следующие функции:

счетчик слов, которые распознал алгоритм;
редактирование текста (выделение, выравнивание, смена шрифта и другое);
списки;
ночной режим.

В приложении Speechertexter предусматривается несколько голосовых команд (вынесены в отдельную вкладку «Custom»), при помощи которых редактор автоматически расставляет знаки препинания. Пользователи могут расширить этот список, внеся соответствующие изменения в настройки. Готовый текст сохраняется в виде файла с расширением .txt или .docs.

Источник

Содержание

MSpeech
Lossplay
Transcriber-Pro
Express Scribe
Voco
Вопросы и ответы

MSpeech

Скачать последнюю версию MSpeech с официального сайта

Читайте также: Голосовой ввод текста на компьютере

Lossplay

Скачать последнюю версию LossPlay с официального сайта

Читайте также: Набираем текст голосом в Документах Гугл

Transcriber-Pro

Скачать последнюю версию Transcriber-Pro с официального сайта

Читайте также: Программы для озвучки текста

Express Scribe

Скачать последнюю версию Express Scribe с официального сайта

Voco

Скачать последнюю версию Voco с официального сайта

Источник

Функции MSpeech

Как получить MSpeech без ограничений по функционалу?

MSpeech

Lossplay

Transcriber-Pro

Express Scribe

Voco

Содержание

MSpeech — голосовой ввод

Лог

Настройки

Режимы вставки в программы

Команды

Исходники

Скачать бесплатно Speech API (SAPI) 5.1 для Windows:

Версия x86/x64

Что можно сделать с помощью голосового ввода текста

Проверка и настройка микрофона

Программы для голосового ввода

Dictate для MS Office

MSpeech

Speechpad

Voco

Веб-сервисы и приложения

Google Docs

Speechpad

VoiceNote

TalkTyper

Voice Notepad

Speechertexter.com

Вот еще несколько интересных статей: