一文道清语音转文字市场（Audio-To-Text）

人人都是产品经理 12-03 4726

前言：

而今大家对“在最佳适应算法中是按什么顺序形成空闲分区链”大约比较注意，同学们都想要分析一些“在最佳适应算法中是按什么顺序形成空闲分区链”的相关资讯。那么小编也在网摘上网罗了一些关于“在最佳适应算法中是按什么顺序形成空闲分区链””的相关内容，希望看官们能喜欢，看官们一起来了解一下吧！

关于语音转文字，大部分想起接触过的会是在聊天软件中出现。除此之外，语音转文字还有许多应用场景。对此，本文将以国内市场为支点，以全球市场视为目标，探寻语音转写产品的诸多可能性。推荐对语音转文字市场感兴趣的小伙伴阅读。

与以往从国内市场角度的分析不同，本文将以国内市场为支点，以全球市场视为目标，探寻语音转写产品的诸多可能性。

本文说的语音转写，聚焦于面向C端用户的带语音转文字功能的产品，不包括企业服务中的智能客服、Fintech、车载语音、智慧医疗场景下的泛语音转写。

一、名词解释

语音转写：使用将音视频信息转化成文本信息的一种服务。

实时转写，即流式上传-同步获取，可将不限时长的音频流实时识别为文字，并返回带有时间戳的文字流；一般用于直播实时播放字幕、实时会议记录；也可以配合机器翻译，实现同传功能非实时转写，即已录制音频文件上传-异步获取，非实时语音转写将长段音频数据转换成文本数据，可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。

ASR：指自动语音识别技术（Automatic Speech Recognition），是一种将人的语音转换为文本的技术。

NLP：自然语言处理（Natural Language Processing,NLP）是利用计算机对自然语言文本进行理解、处理，并提取文本语义的过程。

二、如何介绍清楚语音转写

笔者的安排是这样的：

语音转写的基本定义和概念科普，帮助读者和笔者同频；语音转写所在的前置背景，这是它发展的前提；语音转写的市场规模，这决定了它是否值得被研究；语音转写的产业链，这可以帮我们从合作视角看我们关注点所在的位置；语音转写的竞争格局，这里是重点，用竞争视角从行业玩家身上直观感受语音转写的用户-场景-需求和商业模式，并且笔者不仅会纵向对比国内不同语音转写产品，也会横向对比国内外语音转写产品的区别，最后通过详细拆解Notta这款明星PLG产品作为行业经典案例，希望带来启发；语音转写的发展趋势，这里主要是通过展示相关创业公司来阐述其可能的发展路径；语音转写的综合评价，总结笔者对于语音转写行业的认知。

三、语音转写发展的前置条件

这事能成，主要有赖于三点，因为语音转写是有三个步骤组成的：

输入得更多，说明场景更多，市场需求更多；转码得更快，说明成本更低，使用没有障碍；输出得更准，说明结果需要更少的修改加工，结果更满意。

这三点如何发生了改变：

1. 输入方面：无纸化程度极大提高，大部分的数据都是以数字化形式存储

理论上，只要是人与人之间发生的信息的传递，都是有数字化的需要的，主要是以非结构化数据的形式：

比如开会讲话的内容，是多人之间相互的信息传递，需要沉淀成会议纪要；比如老师讲课的内容，是一个人单方面向多个人的信息传递，需要沉淀成学习笔记；比如采访对话的内容，是一个人和另一个人的信息传递，需要沉淀成实录文档；……

这些沉淀的信息肯定不能以手写稿作为载体，而是要以文本形式存储：

手写稿存储成本太高，纸多了你总会弄丢吧，时间长了纸总会坏吧，要记的内容多了，我得随时准备各种各样尺寸的纸，以备不时之需；传输更麻烦，手写稿只有作者自己能看懂，况且一次只能给一人看，这还不如印刷术发明前的人类社会呢，信息的传输效率限制了世界的发展。

在未来，协作越来越多，人与人发生信息传递的场景就越来越多，越来越多的信息需要被数字化记录沉淀。

这是电子信息技术带来的结构性变化。

2. 转码方面：ASR性能提升，带来了转录的实时响应

单纯的无纸化，只能催生速记员、打字员，比谁能快速输出文本信息，这个活又脏又累还贵，可重复性可替代性极强，简直就是人工智能的最佳瞄准对象。

输入输出本身就很麻烦，1个小时的音频，人写需要2个小时，语音转录只需要5分钟。

3. 输出方面：其他语音技术的提升，带来了结果的可靠性

为什么说其他，因为这些主要还是依附于语音转文字这个技术之上对结果进行的优化。

人声分离，一种区分不同人声音的技术，可以通过声音来辨别某人的身份。一旦检测到一个人的发言，系统就会为该发言者创建一个声纹配置文件，从而分辨同一个人其他所有的语音；多语种识别，对混杂的语言环境进行区分，识别多人对话；环境降噪，对嘈杂的说话环境进行过滤，区分哪个是关键人在说话哪个只是环境音；语言降噪，人在说话时毕竟不像写作那么严肃，期间夹杂着大量的口语和语气词甚至叠词，需要对文本进行精简提炼，增强可读性，这属于NLP范畴。……

四、语音转写行业发展

这个过程并非一帆风顺，语音转写行业也是历经了四个发展阶段的。

第一阶段

在1990年-2010年，主要是人工服务，即通过人工实现录写服务。这个期间的产品形态，是以专业人工服务或外包方式服务客户。

第二阶段

在2010年-2015年，转写进入互联网化，这个阶段引入了机器服务，让机器助力转写，这种服务的产品形态主要是以网页和客户端小工具等方式实现。

第三阶段

在2015年-2017年，转写进入移动化，这个阶段引入人工智能和ASR技术，实现更高精准度的语音识别和语义理解，这种产品形态更加多元化，以APP、网页、智能硬件等方式展开。

第四阶段

在2017年至今，也是当前的阶段，转写进入人机耦合阶段，是人工智能与人工服务相融合的时刻，产品形态上仍然是以APP、网页、硬件等方式，但机器与人工进一步融合。

这是从技术角度去理解行业发展，其实其应用形式远不止于此。

五、产业规模

语音转写行业的盘子到底多大？

先看一组行业数据，根据艾瑞咨询的报告，2021年中国智能语音撰写市场规模约为10亿元，预计2026年市场规模将达到38亿。如果要估算全球市场，用这个数据乘以5即可得到大致结果。

从产品形态来看，智能转写产品主要包括Saas类产品与本地化部署解决方案两大类。

这个市场的特点就是，基数不算大，10亿量级，但是增长率相当可观，会有很多的增量出现，因为过去是大语种、大企业的需求，未来将会蔓延到更多的小语种、方言、小企业和传统企业，甚至是国企。（国企是这类Saas服务的重点服务对象）

下图是2022年中国智能语音产品成熟度曲线，可以看出语音转写技术以及逐渐进入成熟稳定期。

总之，语音转写的核心是ASR，从技术发展曲线来看，是语音技术最成熟的一项技术了。

ASR的准确率每年都在增长。

六、市场特征1. 供给>需求，由需求驱动

语音转文字，本质是提供了一种软件服务，解决了信息沉淀的效率问题。

当转录还是人工服务时，行业是由供给驱动的，因为转录员是有限的，而且价格昂贵。当机器取代人工转录时，已然变成了一个成熟行业，此时行业变成了由需求驱动。

既然是需求驱动，其需求来源决定了市场的规模和增速。

可见的趋势是，在线会议的比例会越来越高，即使已经进入后疫情时代，但是企业逐步适应了在线会议，随着未来跨区域团队协作场景的增加，会有更多团队利用好在线会议。

网课会越来越多，网课不仅仅是指初高中学校的网课，更多的是职业教育的网课，当今的成年人在上各种各样的技能课程，典型的如公务员课程、考研课程。

2. 准入门槛不高，同质化明显

ASR技术已经非常成熟了，各种厂商可以提供稳定的API和SDK，供市场进行不同程度的使用，因此行业的准入门槛不高，很多玩家都可以加入进来，提供相似的服务。

国内市场，去百度搜索语音转文字，会有数十种提供类似服务的网站。

国外市场更卷，在Google搜索audio to text，会有十几种同质化的网站。

一些差异化也只在一些细节上，比如区分说话人、专业领域的词库、不同的价格策略。

可以说，单纯的语音转文字功能，靠转录的字数或时长付费，实在玩不出新花样。

3. 市场多样，赢家难以通吃

受前两点影响，这个市场由需求驱动，且总是会有新入场者。

如果用户一旦没有转文字需求，是不会使用的，毕竟每次使用都是要钱的。

这个模式在中国市场面临一个问题，国内用户不喜欢这种“pay for every use”的方式，所以会想尽办法去找一些免费试用的替代品。

因而很难出现一个赢家垄断整个市场，简言之，这是一个开放竞争的市场，各种新兴企业试图围绕着语音转文字提供更多的附加价值。

下图是国内提供直接语音转文字工具的长尾厂商部分名单（不完全统计，也不包括带语音转文字功能的产品比如输入法、微信、剪映等）：

如果觉得多，不妨再来看看美国市场，仍然是不完全统计：

相信读者可以直观感受到这个行业的“卷”度。

七、商业模式

语音转写的商业模式是比较清晰的，分三种：卖软件服务，卖硬件，卖定制化。

1. 软件服务在线API——厂商提供接口数据在服务端进行，特点是灵活性强、效率高，按使用次数或者使用时长进行收费。离线SDK——厂商提供核心算法模块，数据在客户端进行，开放性、软件开发兼容。私有云——厂商提供私有云平台定制化服务，可以满足客户定制化需求，安全性强。

2. 硬件

厂商提供语音采集等终端硬件，有效采集语音数据，实现语音采播编审存一体化。

3. 集成解决方案

厂商提供场景及行业定制化解决方案，开发智慧媒体解决方案，满足不同行业个性化需求。

八、产业链

从技术源头到消费端分产业链上中下游。

1. 上游

主要是由一些科技大厂来主导，它们是整个AI行业最底层服务提供者。阿里云、腾讯云、百度开放平台、讯飞开放平台都是比较不错的基础平台。

语音识别和自然语言处理均为智能语音转写的关键技术，为解决资源浪费项目之间缺少共享等问题，基于AI平台开放NLP的方案应运而生。

2. 中游

主要是AI技术的提供者，按照各自业务特征分为四类：

（1）通俗意义的智能语音厂商

比如专门提供智能语音服务的讯飞听见、灵云听语。

（2）独树一帜的AI公司

云知声、思必驰、商汤、依图。

（3）互联网巨头

阿里云、百度云、腾讯云、华为云。

（4）边缘厂商

搜狗（原来算，现在被收购就不算了）、迅捷、金舟，等等。

3. 下游

这就是真正被消费者使用的场景了。

（1）多人讨论

比如公司里的会议：

1 V 1沟通，比如采访、电话销售、客服。1 V N输出，比如课堂、演讲、直播、大会。

（2）媒体创作

比如视频网站的字幕生成和视频创作者的字幕文件。

产品形态上，既有讯飞听见这种直接提供转写服务的产品，也有输入法、微信、飞书妙记这种嵌入语音转写的产品。

九、竞争格局1. 国内竞争

这里只针对面向C端市场的转写产品做竞争格局分析。

典型的语音转写代表产品：讯飞听见。

讯飞听见是科大讯飞旗下的一款主打语音转写的产品服务，得益于讯飞在语音领域的深耕，讯飞听见凭借高精度转写能力占据了中高端市场，如果点开它的网站，可以看到机器快转和人工精转两种服务配合，满足了商务这类对转写有高标准的严肃场景。

之前说过，对优秀语音转写能力的定义就是要快和准，快不用说了，1小时音频最快5分钟出稿，相比于人类速记员绝对是五十倍的提升，准这方面，机器水平已经达到97.5%，并且支持多国语言和方言，外加许多专业领域词汇。

唯一不太亲民的地方是：贵。

2个半小时转录收费50元，如果不是特别需要，或者急用，一般不会轻易购买。

它的竞品有很多，这类产品的商业模式都比较清晰，主要解决用户转文字的需要。

用户为转文字效果付费，因此看重的是转文字的准确率，那在某些方面当然就不能顾及到，比如“数据孤岛”问题，用户转文字后需要导出变成其他格式，至于这些转文字的数据结果如何使用取决于用户的实际用途，这就不要求什么用户留存了。

这个模式在中国市场并不讨巧，国内用户并不都接受这种“pay for every use”的方式，所以会想尽办法去找一些免费试用的替代品或者是会员制的收费软件。

因此这类产品的高质量用户多为有稳定需求和付费能力的创作者、企业用户。

讯飞听见作为行业头部厂商，肯定是不希望做一个“用完即走”的产品的，如前所述，需要用到转写服务的场景有会议、演讲、课堂、采访、字幕创作等。

符合高频、用户量大、付费能力强一定是企业用户的会议场景。因此讯飞听见选择切入了“在线会议”市场，希望通过转写打通会议创建——预约——会议转写——会议纪要的全链路场景，这样转写结果就不是一座数据孤岛，而是以会议记录的形式成为企业办公的基础设施。

说完以转文字为核心的宽泛型产品后，下面介绍第二种，以在线会议为核心，附带语音转文字的产品。

典型代表：腾讯会议、飞书妙记、钉钉闪记。

钉钉闪记提供了会议实时转写和音视频转写的功能，帮助员工沉淀工作信息，快速定位到关键信息有助于做决策和制定计划。对于转写结果，不仅做到非常细致的分段，而且还支持编辑和高亮的功能。

飞书妙记除了基础的转写和编辑功能外，还提供了关键词提取的功能，帮助员工快速捕捉定位相关术语来纵览整篇内容。

会议协作产品有着天然的优势，因为企业协同办公是一个稳定的流量入口，会议转文字只是一个附加价值，重点在于转文字后的团队协作，将会议纪要转换成团队具体的决策和知识，在团队内部共享。

话说回来，讯飞听见从语音转写扩展到在线会议，难道是因为觊觎在线会议市场份额而插一脚的么？

2. 海外竞争

NO，我们将眼光放到国外。

国外的转写市场发展比国内更早，最成熟的当然是美国。如果说科大讯飞在海外的counterpart是Nuance，那讯飞听见在海外的counterpart是Otter，而不是siri和Alexa，

这是一款基于人工智能和深度学习的语音识别产品。总部位于加利福尼亚州洛斯阿尔托斯，也是AI驱动的协作笔记和生产力提升应用程序提供商。

2020年Otter.ai获得来自日本移动运营商NTT Docomo的1000万美元融资，并且宣布与Zoom加强合作关系，为Zoom会议启动实时字幕，并且在疫情期间实现了指数级增长（收入同比增长10倍）。

Otter.ai提供了一个AI驱动的协作笔记记录和生产力提升应用程序，可与Zoom和Google Meet等视频会议平台以及电话和其他语音通信配合使用。

Otter Voice Meeting Notes应用程序使用专有的人工智能实时生成安全、可共享、可搜索的丰富笔记，这些笔记结合了音频、转录、说话者身份、内嵌照片和关键短语。该应用程序在230多个国家/地区使用，现已录制了超过1亿次会议，涵盖了30亿分钟。

Otter的做法反映出了国内外市场一大区别。

国外企业在线办公三巨头Google Meet、ZOOM、Microsoft Teams。

大多数会议新产品都是围绕着这三家作为基础设施提供附加服务。

Otter也不例外。

最后介绍一款产品，Notta，它为语音转写市场拓宽了思路，原因有二：

它在海外激烈的语音转写红海市场凭借差异化的体验成功获得一席之地。它在海外市场找到了高价值市场，盈利情况相当可观。

语音转写作为一项成熟技术，门槛是不高的，行业头部厂商和普通厂商的转写精确度相差都是百分之几，对很多用户来说够用就行，因此相互之间的替代性比较强。

一个普通的语音转写新玩家，想要获得一些份额，有几种方式：

SEO，让一些小白用户首次就接触到这个产品，这些用户用习惯了大概率不会离开；免费低价策略，在有基础的语音转文字能力后，就靠免费来获得一些低价值用户，因为这些用户是被头部厂商的付费漏斗给剩下的，这些用户付费意愿几乎没有的，用你就是图免费，但你不可能永远免费，当你恢复收费的那一天，也是白嫖用户离你而去的时刻；提供除转写外的附加价值，可以打破“数据孤岛”，用户为附加价值付费。

Notta就选择了第三种。

十、典型案例

下面介绍Notta，一款中国企业出海日本市场的语音转文字产品。

这款产品主打的仍然是语音转文字，只是对于转文字后提供了更多的附加价值，为用户的工作学习场景打造了完整的闭环体验：

多场景输入——多语种转文字——编辑校对——笔记输出——分类管理——导出

1. 多场景输入

用户会以何种方式输入音频文件，就有多少种场景：

直接获得音频文件——音频导入录下当前环境中的声音——环境实时转录录下当前屏幕上的声音——Chrome浏览器插件开会时录下在线会议——Notta Bot会议实时转录

音频导入和实时录制是很通用的功能了，这里着重介绍Chrome插件和Notta Bot。

（1）Notta Add-in

插件的需求主要来源于很多有用的资料是网站的在线视频里的，如果想把在线视频转文字需要用户想办法提取出音视频，要么是用户用手机对着电脑外音录一遍再导入转录，要么是懂点技术的用户提取出网站的音视频源文件，这样做无疑是提高用户的使用门槛和成本。

Chrome插件可以很好地解决这个问题，插件本身就是极具定制化的，用户在播放在线音视频时可以打开插件录制，播放完后就可以得到完整的转录文件，消除了导入门槛，效率大大提升。

（2）Notta Bot

Notta Bot是一个会议录制功能，用户在一些不需要发言的网络研讨会、开放性的会议可以使用 Notta Bot 定时参会，空闲时候回顾音频和文本。公司例会和客户会议可以通过 Notta Bot 记录文档，推送到 Notion 留存。目前 Notta Bot 已经支持 Zoom/Google Meet/Microsoft Teams，还可以同步自己的日历，实现自动参会。

2. 多语种转文字

Notta针对的是海外市场，因此需要满足大量不同地域的语言要求，因此语言支持方面也是 Notta 的优势，Notta 集成 Google、AMI、微软、思必驰等多家引擎服务商，支持中文（简体、繁体、粤语）、英语、日语等多达几十种语言，还包含多种口音，如印度英语、澳大利亚英语等，系统会根据不同的语言智能匹配不同的引擎，综合语言和口音达到100种。

3. 编辑校对

首先，和讯飞听见的转录结果偏向阅读的整段展示不同，Notta将转录文本切得很细，每段/每句后都直接附上了原声语音切片，如果用户需要对文本以编辑校对。

比如对相关术语近义词可能造成歧义的，切得细的相对容易进行二次校验，这就让用户在转写完成后不会立刻导出，而是在Notta上完成编辑工作。

4. 笔记输出

对于转录结果，用户可以添加图片，将文本笔记变成富文本笔记。进一步地，通过给笔记打上标签添加便签内容，帮助用户从原文中提取关键信息形成决策和计划（默认标签有Key Poiont、To-do、Project），非常契合实际的工作学习场景。

5. 分类管理

不同于“用完即走”的语音转录工具，Notta争取让用户留在产品内，用户如果有长期的转录文件需求，文件的分类管理是大问题，毕竟如果每次都要导出到本地，遇到多设备办公或者协作时会很不方便。因此Notta承担了笔记内容的存储空间，支持将转写文档建组归档，从语音转录工具变成了文档办公平台。

6. 导出

完成转写和编辑之后，Notta 在导出文本时还具备良好的兼容性。

Notta 除了支持实时录音转写，还支持音频、视频的主流格式导入转写，我们在网上下载的音频视频文件无需转换格式可直接导入 Notta 中获取转写文字，并可导出多种格式的文本档案，如 PDF、DOCX、SRT 等格式。

Notta的创始人也是原来摩拜单车的联合创始人，几个合伙人也是有不错的创业经验，所以在语音转写红海市场里的打法也比较值得品味。

Notta一开始就确定了“PLG+订阅付费”的盈利模式，因为经过验证，这种模式是最适合海外SaaS产品的自增长，Notta早期也是有在中国市场上架投放的，但是发现中国市场的订阅付费情况非常糟糕，简单说就是白嫖居多，因此后面因为各种原因就暂时不投放了。（Notta作为一家创业公司，避免重复造轮子，集成了 Google、AMI、微软、思必驰等多家引擎服务商，被白嫖真架不住）

Notta在海外的投放自然也是瞄准发达国家，因为发达国家的付费意愿的确高，养活了很多SaaS公司，在众多地区的投放效果对比时，发现日本的投入产出结果是最好的。

Notta经历了从单一场景切入的工具，到口碑传播和商业化，再到服务企业客户的完整过程，主要有三个阶段：

（1）第一阶段

Notta最早作为移动端工具APP，先是上了APP Store，然后上了Google Play，2020年7月份的时候，整个移动端下载量突然一天增加了两万，冲上了日本地区效率榜Top3。

当时团队以为是被黑客攻击了导致下载量特别多，直到过了大概两三天才发现Notta是被日本的电视台一个早间新闻节目报道了，一个日本年轻动画配音演员分享了日本人生活中要用到的几个效率APP，于是就在日本小火了一把，之后Notta在苹果市场表现得非常好，用户搜一些关键词就可以看到这款APP，Notta发现日本市场在用户增速、营收、付费意愿都是相当不错的，团队开始发力日本市场。

直到2022年5月份的时候上了企业版，随着功能逐渐丰满开始有企业级别的客户去付费。在只有App的时候，Notta发现传统媒体的PR效果非常好。这个阶段Notta也尝试过国内安卓市场，后来发现付费还是不行。

在上线Web版SaaS产品后，用户开始在社媒上自发讨论Notta，评价Notta为他们生活带来了便利，甚至有用户称“Notta应该获得诺贝尔和平奖”。产品的口碑开始建立了，也符合公司的预期——一定要做品牌，要让用户总是搜索到好的评价和内容，通过“洗脑式”的好评来影响用户最终的决策。

（2）第二阶段

本地化运营，这个时候，团队发现60%的流量都来自搜索引擎，因此营销精力主要放在SEO（搜索引擎优化）。

本地的内容同学和兼职写手基本上一周能产出与产品、场景或效率相关的二十多篇文章，通过这些文章在搜索引擎不断优化关键词，本质是内容营销。当SEO月环比或周环比增长放慢的时候才考虑配合买量。

（3）第三阶段

PLG典范，自下而上效应最终帮助产品进入企业级客户，当时基于用户需求做了一个跨平台自动参会的功能，也为产品带来了一小波爆发。比较典型的企业客户是日本的八千代工程（工业、汽车零部件供应商）。

而这笔大单的起源是一名员工最早购买了一个账户，公司先是有一个市场顾问在用的过程中觉得很好用，然后团队几个人开始在用，之后他们觉得自己每次买会员还要找公司报销，觉得很麻烦，于是就推到本公司的数字化业务推进部门的 leader，经过几次远程会议后该公司帮1000多名员工购买了Notta 500多个账户一年的服务，这是Notta第一个大客户，整个销售过程比较顺利，是纯在线的方式。

从马后炮的角度看，日本市场表现显著的原因有三：

（1）日本市场的老龄化趋势下，劳动力是极度稀缺资源

在日本有这样一个段子，150个岗位，却只有100个人来应聘，因此日本企业对于人效的关注持续上升，日本的经济劳动省（相当于国家的人力资源部）提了一个建议，让日本企业能够以数字化的方式去拥抱未来。希望利用AI带来的自动化工作方式来去提高人效，刚好 Notta这款产品符合这个场景，因而整体导入是比较顺利的。

（2）日本严肃的职场文化

日本职员只要开会，一般都会写一个特别详细的会议纪要，或者有一个专门的职位去做这样的事情。Notta这款产品刚好符合日本这种当地文化，那么导入的过程也会比较顺利。

（3）日语相比于中英文，归根结底属于小市场，竞争不激烈

美国早期的那些独角兽公司或者一些SaaS公司，它早期并不会关注日本市场，这也是给了Notta一个好的入场机会。像Otter这样的AI公司在北美的增长是很快的，目前有几千万美金的收入量级，但是Otter始终没有做日语引擎，这给了Notta团队一个窗口期，让Notta能够在日本迅速把市场覆盖度铺广，目前为止在移动端的效率榜Notta已经进到前10名，在Notta网页端每个月已经有将近100万UV。

由于是发达市场，而且提供了如此丰富的功能，Notta的客单价相比于竞争对手绝对是第一梯队的，

Notta实行订阅制，对于免费用户，Notta每个月会赠送120min的转写时长，付费用户可以不仅可以有无限时长，还可以使用各种附加功能，比如更多的导入格式、文字校对、隐藏时间戳等。

年费平均下来要比月费要便宜（下图是年费换算），单月付费大概是100元人民币的价格，相当于在讯飞听见上转写6个小时的文件，这样看来整体性价比是高的。

目前Notta在日本这个软件领域似乎很传统的市场，又是在语音转录这个并不特殊的赛道，不到3年就做到月入30万美金，算上ARR已达到360万美金了。

由于出海产品都会面临很强的本地运营问题，因此针对PLG模式最发达的美国市场，Notta团队选择重新开发一款会议效率产品Airgram，拿下Product Hunt头条，顺势拿下了1000万美金的A轮融资。

从Notta团队的思路可以看到，语音转写产品想在超级红海市场脱颖而出，遵循几个逻辑：

小工具尽快找到核心价值用户，或者国外常说的ICP（Ideal Customer Profile，理想客户画像），让客户推着产品向前，Notta一开始就是非常重视盈利闭环的，而不是提供同质化的免费低价服务，因为那只会吸引低价值白嫖党；不重复造轮子，关注自己的核心业务，善用三方工具和能力，快速将产品做到及格，尽早投入市场进行验证；非常重视内容营销，在海外要真正并持久获得高质量的用户，需要给产品持续讲一个打动人心的故事，这点普通公司离海外一流SaaS公司的差距很明显。

十一、语音转写发展趋势

既然谈到发展趋势，就不局限在C端应用市场了，而是放眼全球的各个领域

1. 从大语种逐渐蔓延到小语种

中美互联网发展是最快的，其次就是东南亚、印度，这些地区经济发展紧随中国，互联网渗透率也越来越高，基础设施越来越完善，必然会产生许多新需求，对这些市场是新需求，其实对于中美已经是被验证很多次的市场了，因此贯彻“Copy to them”的策略，就语音转写而言，东南亚、印度这些地区很明显的社会特征就是民族多、语言繁多，识字率不高。虽然印度是一个完整的主权国家，但其实际的社会统一性是远不如中国的，

印度语言的特点，一是语言种类多，二是各个语种使用人口非常不均衡。其中印地语母语者最多，而英语最通行。

印度有个称号叫“语言博物馆”，足见其语言状况之多样。大体上，北印度人主要讲印欧语系下的印度-雅利安语支的各个语种，如印地语、乌尔都语；南印度人则多操着达罗毗荼语系下的各语言，如泰米尔语、泰卢固语等。印度语言从大的层面的分类，有很明显的南北差异和东西差异。

精确点讲，按照2001年人口普查结果，在印度作为母语使用的语言数量有1635种，单是使用人口在百万以上的语言就有29种。在众多本土语言中，以印地语为母语的人约占印度总人口的40%，这些人集中分布在北印度，而以其他语言为母语的人口均不足10%。不过在南印度，英语和南印本土语言更加通行。印地语的基本盘，很明显就是恒河流域的中上游部分。

因此，在互联网高速发展的印度，有了印度硅谷之称的加尔各答，催生出各种智能语音相关的初创公司，以及其他外来企业针对印度市场的语音本土化产品。

而东南亚是由11个国家组成的，人口6亿左右，除了新加坡这样的发达国家，大部分都是发展中国家，它们不仅民族语言繁多，而且还有国界分割，而市场经济又将他们深度捆绑在一起，因此也是新兴的语言市场。

（1）Fano labs

中国香港的初创公司，Fano Labs，成立于2015年，专注于语音识别（ASR）及自然语言处理（NLP）等人工智能前沿技术的研发与应用。目前，公司的语音识别解决方案支持普通话、英语、泰语、印尼语等多个语种，以及四川话、广东话等各类方言。其主要业务是为金融合规和客户服务等场景提供语音识别技术服务。

Fano Labs 的核心竞争力是多语种环境识别，即在几种语言混杂情况下的语音识别。比如，在香港企业中，中粤英混杂使用的情况较为常见，印度企业面临着印度语和英文混合的问题，即便在新加坡，虽然大部分企业讲英文，但日常沟通也会掺杂一些中文和马来语。随着多语种混合的趋势愈发明显，传统语言分析技术已疲于应付。Fano Labs 的语言分析技术能够自动检测录音中的不同语种，即使同一个说话者在多种语言切换也能被准确识别。（值得一提的是，香港有一个独特的优势，就是这个国际化的大都市汇聚了世界各地的人，我们在香港也能轻松地找到其他国家的 native speaker，通过他们的反馈，我们得以把技术打磨得更好，借助香港这个跳板，出海到其他国家。）

（2）Vokal

在过去的十年中，印度的互联网市场以及相关业务都专注于服务习惯于使用英语的用户身上。但下一代互联网用户渴望的是不用打字的非英语内容、交流以及购物。

事实上，大多数印度互联网用户都习惯于使用印度语浏览网页，而这一数字预计在两年内达到 5 亿。谷歌的统计数据也能为印度下一代互联网用户行为的变化提供一些线索：

印度的语音搜索量同比增长了 270%，同时，95% 的视频内容消费都是本地语言。预计未来几年内，印度的互联网用户数量将超过 6.5 亿，新用户将全部来自于印度二、三线城市以及农村地区。

Vokal 的应用下载量超过 50 万，人们可以用印地语在上面提出并回答问题，而现在 Vokal 已经新推出了 10 多种语言选项。Radhakrishna 说，“你必须进行多种尝试，不断完善自己的商业模式。市场在不断地发展，以英语为中心的受众群体并不能代表整个市场的用户。”

尽管互联网在发展，新互联网用户的行为也与之前不同。他们通过互联网下载并分享的内容更多了，但却不能用自己的语言进行公开提问并得到答案。同时，争取这些新互联网用户的也并不只有本土企业。中国的创业公司，尤其是那些提供本地语言选项并专注于视频内容的企业，正被广大用户选择。

笔者认为，归根结底还是印度整个国家的识字率不高，一些低线城市的人口不擅长打字更不擅长英文，因此用自己会的语言进行语音搜索代替打字搜索是非常符合当地实际情况的，即语音产品的本土化，给了像Vokal这样的公司很大的增长空间。

当然这也会带来一个疑惑，为什么Google这样的巨头这么早进入印度市场，却没有深度进驻这个领域，还是那句话，不是不能做，是巨头看不上。训练一个小语种模型无论从资金还是时间上都不便宜，更何况早期的印度智能手机渗透率还不高，很多基础设施跟不上，因此做这些小语种的确是投入大产出小。

2. 从单纯的语音转写延伸到整个链路

无论是出海产品Notta、Airgram，还是美国本土的Otter以及一系列带语音转写功能的产品，都是围绕着企业在线会议作为立足点拓展，前有会议预约和创建，中间有会议机器人，后有会议纪要的总结和同步，旨在提高企业的人效，减少会议导致的人力资源不必要的浪费，美国企业每年由于开会带来的人力资源浪费达到企业开销的1%。

这个思路不难理解，企业开会的目的是同步信息，其结果是形成具体决策，决策最终会指导团队行动。

会议过程转文字的好处在于，会议音视频是线性的数据，用户只能根据时间线快进后退来获得信息，而转文字后就变成可纵览的信息，用户可以在文字中迅速捕捉关键信息，不需要操作时间线，更不需要把原话重听一遍。

转文字后，将关键信息提取出来，就是团队的决策依据和知识库，这些不应该是保存在决策者的大脑或者某个本地设备，而是要共享给整个团队，让团队参与讨论和决策执行。

同样的，对于学生来说，语音转文字可以很好地在课后对老师的讲课内容有很好地概括和提取，并且将其进一步知识化，补充更多内容使其丰富化，单纯的转录文稿是低价值的，只有便捷的编辑和提取才可以让学生把产品当成一个学习助手而非用完即走的转录工具。

3. 从语音转写结果中提取线索

这个不仅仅是对语音转写能力有要求，更多是搭配语义分析一齐提取有效信息，多用于销售管理、客户管理、商务会话

比如当销售和客户沟通后，沟通数据会自动同步并且系统对数据进行分析，让更多销售能够从聊天数据中获益，从而更好地指导销售行为。

比如公司商务人员去外面会谈后，其会谈内容会被完整同步给团队，让整个团队包括负责人能够接触到一手的商务数据，结合商务人员提供的信息得出更加科学的决策。

比如企业开会的最终的落地结果是会议纪要，转文字只是第一步，更重要的是在文字中提取出会议重点内容，否则仍然需要参会者的二次加工。

至于医疗场景，由于医疗是个严肃的话题，一旦技术转录出错会酿出大祸，因此这块还有很长一段路要走。

十二、行业总结

语音转写行业的衡量标准前文已经阐明了，不仅又快又准，也需要方便存储调取使用，并且最终目的是对决策产生影响。