運営:アスタミューゼ株式会社
  • ポートフォリオ機能


追加

元本PDF 裁判所収録の全文PDFを見る pdf
事件 平成 23年 (行ケ) 10427号 審決取消請求事件
裁判所のデータが存在しません。
裁判所 知的財産高等裁判所 
判決言渡日 2012/10/31
権利種別 特許権
判例全文
判例全文
平成24年10月31日判決言渡 同日原本領収 裁判所書記官

平成23年(行ケ)第10427号 審決取消請求事件

口頭弁論終結日 平成24年10月10日

判 決

原 告 ア バイア インコーポレーテッド

同訴訟代理人弁理士 岡 部 讓

吉 澤 弘 司

三 山 勝 巳

M 口 岳 久

被 告 特 許 庁 長 官

同指定代理人 新 川 圭 二

竹 井 文 雄

田 部 元 史

守 屋 友 宏

主 文

1 原告の請求を棄却する。

2 訴訟費用は原告の負担とする。

3 この判決に対する上告及び上告受理の申立てのための

付加期間を30日と定める。

事実及び理由

第1 請求

特許庁が不服2009−23761号事件について平成23年8月9日にした審

決を取り消す。

第2 事案の概要

本件は,原告が,後記1のとおりの手続において,特許請求の範囲の記載を後記

2とする本件出願に対する拒絶査定不服審判の請求について,特許庁が同請求は成




り立たないとした別紙審決書(写し)の本件審決(その理由の要旨は後記3のとお

り)には,後記4の取消事由があると主張して,その取消しを求める事案である。

1 特許庁における手続の経緯

(1) 原告は,平成17年6月23日,発明の名称を「視覚的な監視チャネルを有

する対話式音声処理のための方法および装置」とする特許を出願した(特願200

5−183062。パリ条約による優先権主張日:平成16年(2004年)6月

23日(アメリカ合衆国)。請求項の数10)。

特許庁は,平成21年7月28日付けで拒絶査定をしたため,原告は,同年12月

3日,これに対する不服の審判を請求した。

(2) 特許庁は,これを不服2009−23761号事件として審理し,平成23

年8月9日,「本件審判の請求は,成り立たない。」との本件審決をし,その審決

謄本は,同月22日,原告に送達された。

2 特許請求の範囲の記載

本件審決が判断の対象とした特許請求の範囲の請求項1の記載(平成21年7月

6日付け手続補正書(甲6)による補正後のもの)は,以下のとおりである。なお,

「/」は,原文における改行箇所を示す(以下,特許請求の範囲の請求項1に記載

された発明を「本願発明」といい,本願発明に係る明細書(甲5,6)を,図面を

含めて「本件明細書」という。)。

ユーザとIVR(対話式音声応答)システムの間の対話を監視する方法であって,

/複数のコマンドを有するIVRスクリプトに従って前記ユーザからの音声通信を

処理するステップと,/前記IVRスクリプトに基づいてエージェントに前記音声

通信の視覚表示を提示するステップと,を含み,/前記視覚表示が,前記音声通信

と実質上同時に提示されかつ前記ユーザから取得された情報を取り込むために少な

くとも1つのフィールドを有し,/前記フィールド内に取り込まれた前記情報が前

記エージェントによって更新される方法

3 本件審決の理由の要旨




(1) 本件審決の理由は,要するに,本願発明は,後記アの引用例に記載された発

明及び後記イないしエの周知例1ないし3に記載された周知技術に基づいて,当業

者が容易に発明をすることができたものであるから,特許法29条2項の規定によ

り,特許を受けることができない,というものである。

ア 引用例:特開平10−322450号公報(甲1)

イ 周知例1:特開2002−215670号公報(甲2)

ウ 周知例2:特開2003−5778号公報(甲3)

エ 周知例3:特開2004−32742号公報(甲4)

(2) 本件審決が認定した引用例に記載された発明(以下「引用発明」とい

う。)並びに本願発明と引用発明との一致点及び相違点は,次のとおりである。

ア 引用発明:利用者と対話型音声認識システムの間の対話における音声認識方

法であって,前記利用者からの音声を音声認識するステップと,オペレータに前記

音声認識結果の表示を提示するステップと,を含み,前記表示が,前記音声と実質

上同時に提示されかつ前記利用者の発声した音声の認識結果を表示するために少な

くとも1つの入力欄を有し,前記入力欄内に表示された前記認識結果が前記オペレ

ータによって訂正される方法

イ 一致点:ユーザとIVR(対話式音声応答)システムの間の方法であって,

前記ユーザからの音声通信を処理するステップと,エージェントに前記音声通信の

視覚表示を提示するステップと,を含み,前記視覚表示が,前記音声通信と実質上

同時に提示されかつ前記ユーザから取得された情報を取り込むために少なくとも1

つのフィールドを有し,前記フィールド内に取り込まれた前記情報が前記エージェ

ントによって更新される方法

ウ 相違点1:「方法」に関し,本願発明が「対話を監視する方法」であるのに

対し,引用発明は「対話における音声認識方法」である点

エ 相違点2:「音声通信を処理するステップ」に関し,本願発明では「複数の

コマンドを有するIVRスクリプトに従って」と限定しているのに対し,引用発明




ではそのような限定がない点

オ 相違点3:「音声通信の視覚表示を提示するステップ」に関し,本願発明で

は「前記IVRスクリプトに基づいて」と限定しているのに対し,引用発明ではそ

のような限定がない点

4 取消事由

本願発明の容易想到性に係る判断の誤り

(1) 引用発明の認定の誤り

(2) 一致点及び相違点の認定の誤り

(3) 相違点1に係る判断の誤り

第3 当事者の主張

〔原告の主張〕

(1) 引用発明の認定の誤りについて

ア 引用例の【0018】【図3】によると,引用例において,「音声認識シス

テム」及び「オペレータ」は,別個の構成要素として開示されているものである。

また,引用例の【0022】【0023】によると,引用例に記載された発明に

おいて,音声認識システムが利用者から「発呼」を受け,音声ガイダンスを利用者

に提供した後,利用者はオペレータに向かって発声を行い,オペレータは利用者に

向かって復唱するものである。その際,利用者とオペレータとの間の音声の一連の

やりとりにおいて,音声認識システムは,利用者にガイダンスを提供し,利用者又

はオペレータからの発声をオペレータ又は利用者に受け渡す処理を行うにすぎない。

「対話」(向かい合って話し合うこと。また,その話)及び「ガイダンス」(不慣

れで事情の分からない者に対して,初歩的な説明をすること。案内。手引き)の一

般的な意味からすると,「ガイダンス」は「対話」を構成するものではないから,

音声認識システムは,ガイダンスによってその対話の導入案内をするにすぎない。

また,引用例に記載された発明の解決課題や効果からしても,同発明は,オペレ

ータが発話し,利用者と対話することを前提とするものである。




したがって,引用例に記載された発明において,「利用者」が「対話」する相手

は「オペレータ」であり,利用者は音声認識システム自体と「対話」するものでは

なく,同発明の音声認識システムは,「対話型音声認識システム」ではないから,

本件審決が,引用例に記載された発明について,「利用者と対話型音声認識システ

ムの間の対話における音声認識方法であって」と認定した点は,誤りである。

イ 本件審決は,引用例の【0027】ないし【0030】によると,引用例に

記載された発明において,「オペレータが発声した音声の認識結果により上記入力

欄B1の認識結果は訂正され」るものとするが,引用例【0027】【0030】

は,「主制御部」により「入力欄B1」の認識結果が訂正されるものと開示してい

るのであるから,正しくは,「オペレータが発声した音声の認識結果に基づいて主

制御部により上記入力欄B1の認識結果は訂正され」るものというべきである。

ウ 以上によれば,本件審決の引用発明の認定は,誤りである。

(2) 一致点及び相違点の認定の誤りについて

ア 一致点について

(ア) 本件審決は,引用例に記載された発明の「利用者」「オペレータ」が,そ

れぞれ本願発明の「ユーザ」「エージェント」に相当することを前提として,本願

発明と引用例に記載された発明とが,「エージェントに前記音声通信の視覚表示を

提示するステップ」を有する点で一致すると認定した。

しかしながら,「オペレータ」((機械を)操作・運転する人。計算機類の操作

者,無線通信士・電話交換手など)及び「エージェント」(ユーザの連続した操作

を必要とせず,自律的に情報収集や状況判断を行い,適切な処理動作を実行できる

機能)の一般的な意味からすると,「エージェント」は,自立的に状況判断を行う

機能を有するものであり,単に機械を操作する「オペレータ」よりも狭いか,ある

いはそれとは異なる概念の構成要素を示す用語である。また,引用例に記載された

発明の「オペレータ」は,全ての対話について,その当事者として「常に」関与す

る構成要素であるのに対し,本願明細書【0008】において,「このようにして,




エージェントは,発呼者とのIVRスクリプトの対話を監視し,必要な場合,介入

することができる。」と記載されているように,「エージェント」は,「対話」に

おける第三者として適時に関与する構成要素である。

したがって,引用例に記載された発明の「オペレータ」と,本願発明の「エージ

ェント」とは,文言上の意味及び処理の役割が異なり,相違する構成要素であって,

「オペレータ」が「エージェント」に相当するとの本件審決の認定は誤りである。

そうすると,「エージェントに前記音声通信の視覚表示を提示するステップ」を

有する点についても,本願発明と引用例に記載された発明の一致点であるとした本

件審決の認定は誤りである。

(イ) 引用例に記載された発明の「オペレータ」は,本願発明の「エージェン

ト」に相当しないことからすると,引用例に記載された発明において,「フィール

ド内に取り込まれた情報」は,「音声処理システムの主制御部」によって自動的に

更新されるものであって,「オペレータ」によって更新されるものではない。

また,引用例に記載された発明は,オペレータの作業の負荷を軽減することがで

きる音声認識システム,コールセンタシステム,音声認識方法及び記録媒体を提供

することを課題とするものであるから,オペレータが情報を逐一訂正するような構

成は,オペレータの負担をむしろ増加させるものである。

したがって,引用例に記載された発明において,フィールド内に取り込まれた情

報は「オペレータ」によっても更新されるものではないから,「前記フィールド内

に取り込まれた前記情報が前記エージェントによって更新される」点についても,

本願発明と引用例に記載された発明の一致点であるとした本件審決の認定は誤りで

ある。

(ウ) 以上によれば,本件審決の一致点の認定は,誤りである。

相違点の認定の誤りについて

前記のとおり,本件審決の一致点の認定は誤りであって,本願発明と引用例に記

載された発明との相違点としては,相違点1ないし3のほか,以下の相違点4及び




5についても認定されるべきである。

(ア) 相違点4:本願発明は「エージェントに前記音声通信の視覚表示を提示す

るステップ」を有するのに対し,引用例に記載された発明は同事項を有さない点

(イ) 相違点5:本願発明は「前記フィールド内に取り込まれた前記情報が前記

エージェントによって更新される」構成を有するのに対し,引用例に記載された発

明は同事項を有さない点

(3) 相違点1に係る判断の誤りについて

ア 本件審決は,引用例に記載された発明の音声認識方法では,音声認識システ

ムとの対話における利用者の音声の認識結果の精度は常に比較判断されているから,

対話が「監視されている」と表現することができるとして,同発明の「対話におけ

る音声認識方法」と本願発明の「対話を監視する方法」との間に実質的な差異があ

るとは認められないとした。

しかしながら,引用例に記載された発明において,「対話」は利用者と音声認識

システム自体との間ではなく,利用者とオペレータとの間に存在するから,「利用

者とオペレータとの間の対話における音声認識方法」と「ユーザとIVR(対話式

音声応答)システムの間の対話を監視する方法」とでは,対話を実行する構成要素

が異なるものである。

また,本願発明は,対話の当事者であるユーザとIVRシステムではなく,対話

における第三者であるエージェントが対話を監視するのに対し,引用例に記載され

た発明では,対話の当事者は利用者とオペレータであり,対話における第三者であ

る音声認識システムが音声認識を行うものであるから,本願発明の「対話を監視す

る方法」と引用例に記載された発明の「対話における音声認識方法」とでは,対話

に対して,監視のための処理又は音声認識の処理を施す主体も異なるものである。

仮に,引用例に記載された発明における対話が利用者と音声認識システムとの間

に成立していたとしても,本願発明は対話における第三者であるエージェントが対

話を監視するのに対して,引用例に記載された発明は対話の当事者である音声認識




システムが対話を音声認識するものであるから,やはり,本願発明の「対話を監視

する方法」と引用例に記載された発明の「対話における音声認識方法」とでは,対

話に対して監視のための処理又は音声認識の処理を施す主体が異なるものというこ

とができる。

さらに,「監視(する)」(警戒して見張ること,不都合な事の起こらぬように

見張ること)及び「音声認識」(人間の声などを,コンピューターに認識させるこ

と。音声の特徴から発声者を識別したり,話し言葉を文字列に変換したりする機能。

コンピューターを用いて音声による指示を識別,判断すること。また,それにより

電子機器を操作・制御すること)の一般的な意味からすると,「監視する方法」と

「音声認識方法」とは全く異なる概念の方法ということができるから,これらを同

一視することはできない。

したがって,本願発明と引用発明とでは,「対話」の当事者となる構成要素,

「対話」に処理を施す主体及び「対話」に対して施される処理内容のいずれも異な

るものであるから,本件審決が,引用例に記載された発明の「対話における音声認

識方法」と本願発明の「対話を監視する方法」との間に実質的な差異はないとした

判断は誤りである。

イ 以上によれば,本件審決の相違点1に係る判断は誤りである。

(4) 小括

本件審決は,以上のとおり,引用例に記載された発明の認定並びに本願発明と引

用例に記載された発明との一致点及び相違点の認定を誤り,相違点1に係る判断を

誤ったものといわざるを得ず,したがって,本願発明は,引用発明及び周知技術

基づいて,当業者が容易に発明をすることができたものということはできない。

〔被告の主張〕

(1) 引用発明の認定の誤りについて

ア 引用例の【0022】【0034】【0036】【0039】によると,利

用者は,引用発明の音声認識システムが提供するガイダンスによる質問若しくは要




求に応答する形で,返事を発声しており,音声認識システムと利用者との間で実質

的に意味のある対話が行われていることは明らかである。

また,引用例の【0023】【0035】【0037】【0041】は,上記対

話における利用者の発声に対するオペレータの発声の具体例について開示するが,

これらは,いずれも「オペレータは」「復唱する」ものとされており,オペレータ

は利用者の返事をほぼオウム返しに繰り返しているにすぎない。このような,相手

の返事を繰り返すだけの音声のやり取りが実質的に意味のある対話を構成するもの

ではない。

イ したがって,引用発明が,利用者と対話型音声認識システムの間の対話にお

ける音声認識方法であるとする本件審決の認定に誤りはない。

(2) 一致点及び相違点の認定の誤りについて

ア 一致点について

(ア) コールセンタシステムの技術分野において,「エージェント」という語句が,

引用発明の「オペレータ」と同様,顧客サービス要員,業務代行者等のように,ユ

ーザからの呼に応対する「人」の意味で用いられることは周知である(乙1〜4)。

本願発明における「エージェント」も,「聞取りのみ」の音声回線を任意に選択

することが可能であること,ドロップダウン・リストからターゲットを選択する必

要があるだけであることなどからすると,引用発明の「オペレータ」と同様,ユー

ザからの呼に応対する「人」であることは明らかである。

したがって,引用発明の「オペレータ」が本願発明の「エージェント」に相当す

るとした本件審決の認定に誤りはないから,「エージェントに前記音声通信の視覚

表示を提示するステップ」を有する点についても一致点であるとした本件審決の認

定も,同様に,誤りはないというべきである。

(イ) 引用発明の「オペレータ」が本願発明の「エージェント」に相当し,引用

発明において,入力欄内に表示された認識結果がオペレータによって訂正される以

上,「前記フィールド内に取り込まれた前記情報が前記エージェントによって更新




される」点についても一致点とした本件審決の認定に誤りはない。

イ 相違点について

前記のとおり,本件審決の一致点の認定に誤りがない以上,相違点の認定につい

ても,同様に,誤りはない。原告が主張する相違点4及び5は,存在しない。

(3) 相違点1に係る判断の誤りについて

ア 引用発明において,「対話」は利用者と音声認識システムとの間で行われて

いるから,ユーザとIVRシステムとの間で「対話」を行う本願発明との間で,

「対話」を行う構成要素については相違しない。

ところで,本願発明の「対話を監視する方法」において,エージェントが「更

新」を行うためには,その前に,更新されるべき情報がIVRシステムによってエ

ージェントに提示されなければならないことは明らかであるから,対話に対する処

理は,「フィールド内に取り込まれた前記情報が前記エージェントによって更新さ

れる」ことのみならず,IVRシステムによって「エージェントに前記音声通信の

視覚表示を提示する」ことをも含むというべきである。

したがって,本願発明において,「対話」に対して処理を施す主体は,「IVR

システム」及び「エージェント」であるというべきである。

一方,引用発明の「対話における音声認識方法」においては,表示された音声認

識結果がオペレータによって「訂正」されることにより,より精度の高い音声認識

を実現することができるものであるから,オペレータによる「訂正」も,音声認識

の1つのステップであるというべきである。そして,対話に対する処理は,対話型

音声認識システムが「オペレータに前記音声認識結果の表示を提示する」ことや

「入力欄内に表示された前記認識結果が前記オペレータによって訂正される」こと

をも含むものというべきであるから,このような対話に対する処理は,対話が監視

されていると表現できるものである。

したがって,引用発明において,「対話」に対して処理を施す主体は,「対話型

音声認識システム」及び「オペレータ」であるということができ,本願発明及び引




用発明において,「対話」に処理を施す主体は相違するものではない。

仮に,引用発明における「処理」が,「対話」を行う構成要素以外,すなわち,

「対話」における第三者からの処理のみを意味するものであるとしても,当該「処

理」は,本願発明では,「前記フィールド内に取り込まれた前記情報」の「更新」

に相当するものであって,これを施す主体は「エージェント」であるのに対し,引

用発明においては,「前記入力欄内に表示された前記認識結果」の「訂正」であっ

て,これを施す主体は「オペレータ」であるから,本願発明と引用発明とにおいて,

「対話」に処理を施す主体に何ら相違はない。また,本願発明における「監視」

「更新」と引用発明における「音声認識」「訂正」との文言上の相違が存在すると

しても,両発明における「対話」に対して施す処理内容の間に何ら相違はない。

イ 以上によれば,本件審決の相違点1に係る判断に誤りはない。

(4) 小括

本件審決の引用発明の認定,本願発明と引用発明との一致点及び相違点の認定

びに相違点1に係る判断には,以上のとおり,誤りはなく,したがって,本願発明

は,引用発明及び周知技術に基づいて,当業者が容易に発明をすることができたも

のというべきである。

第4 当裁判所の判断

1 本願発明について

本願発明の特許請求の範囲は,前記第2の2に記載のとおりであるところ,本件

明細書(甲5,6)には,おおむね次の記載がある。

(1) 技術分野

本願発明は,コールセンタ又は他のコール処理システムに関し,発呼者とコール

センタにおける対話式音声応答システムとの間の対話を監視するための方法及び装

置に関する発明である(【0001】)。

(2) 背景技術

顧客と情報を交換するためのコールセンタでは,IVR(interactive voice




response:対話式音声応答)システムを使用することが多く,記録されたメッセー

ジの形で発呼者に情報を提供し,記録された照会に対する発呼者からのキーパッド

又は音声応答により情報を取得する(【0002】)。

IVRシステムには,エラーを訂正するための機構であるデバッグ・ツールを有

するものもあるが,デバック・ツールは,通常通話の進行に応じて実時間で変更

加えることはできない。また,現在利用可能なデバッグ・ツールは,IVRシステ

ムと発呼者との間の対話を中断し,変更し,訂正するトランザクションをエージェ

ントが監視することはできない(【0004】)。

(3) 発明が解決しようとする課題

IVRシステムにおいて,システムを監視又はデバッグするための改良技術,実

行中のIVRアプリケーションの視覚的な解釈を提供するIVRシステムへの視覚

的なインターフェースを提供することが求められている(【0005】)。

(4) 課題を解決するための手段

本願発明は,IVRシステムに視覚的なインターフェースを提供するものである。

これにより,動作中のIVRアプリケーションの視覚的な解釈を提供し,発呼者な

どのユーザとIVRシステムとの間の対話が監視可能となる。発呼者からの電話通

話などの音声通信は,複数のコマンドを有するIVRスクリプトに従って従来方法

で処理される。本願発明は,IVRスクリプトに基づいて,その音声通信の視覚的

な表示をエージェントに提示する(【0006】)。

発呼者がIVRシステムで会話すると,視覚表示中の1つ又は複数のフィールド

が発呼者の発話を取り込むことができる。エージェントは,発話が取り込まれた視

覚表示中のフィールドを任意選択で再検討又は更新することができる。この監視機

能により,エージェントはIVRスクリプトのフローを変更し,又は音声通信に介

入することが任意選択で可能になる(【0007】)。

(5) 発明を実施するための最良の形態

本願発明のエージェント端末は,ワークステーション及び電話を備えており,I




VRユニット,発呼者装置及びエージェント端末との間で対話が行われる(【00

12】【図1】【図2】)。

発呼者は,VXMLアプリケーションを実行しているIVRユニットと対話する。

エージェントは,音声チャネルによって発呼者とVXMLアプリケーションとの間

の対話を聞くことができる。さらに,エージェントは,VXMLアプリケーション

の状態を示す視覚チャネルによって発呼者とVXMLアプリケーションとの間の対

話を見ることができる。視覚チャネルは,例えば,ウェブ・ページとして表示する

ことができる(【0014】【図7】)。

エージェント・ワークステーションからウェブ・サーバに,現在のIVRアプリ

ケーションの視覚的なバージョンを求める要求が到着すると,IVRアプリケーシ

ョン・エンジンは,適切なページを生成する。そのページは,標準のウェブ接続を

介してエージェント・ワークステーションのウェブ・ブラウザに送られる。エージ

ェント・ワークステーションにより応答が入力されると,その結果がウェブ・サー

バにポストされ,IVRアプリケーション・エンジンに通知され,適切な措置を講

ずる。エージェントはまた,エージェントのヘッドホンと,発呼者及びIVRの音

声チャネルとの間に「聞取りのみ」の音声回線を任意選択で有する。このようにす

ると,エージェントは,IVRダイアログの進度と方向について決定を行い,必要

な場合,訂正を行うことができる(【0015】【図2】)。

エージェント・ワークステーションのエージェントに,本願発明の視覚的なチャ

ネルを提示するためのインターフェースの例としては,発呼者から得られる情報が

取り込まれる1つ又は複数のフィールドを含むインターフェースを挙げることがで

きる(【0020】【図4】)。

本願発明の実行中,エージェントは,発呼者とIVRの間の音声対話をスイッチ

観察機能を介して監視することができる。あるフィールドで発呼者からの入力が終

わった場合,VXMLインタプリタは,その入力データをエージェントのディスプ

レイに送り,エージェントがその入力を指定変更するのを少しの間待つ。エージェ




ントは,例えば,代替のテキストを適切な視覚的なダイアログ入力項目に入力する

ことによって指定変更することができる。所与のフィールドに対応する承認ボタン

をクリックすることにより,フィールドのコンテンツをVXMLインタプリタに対

して確定し,次いで,通常のVXMLフォーム解釈に従って入力処理に進む。エー

ジェントが入力フィールドを変更せず,承認ボタンを押す場合,元のコンテンツが

VXMLインタプリタで使用される。フォームのサブミットボタンにより,VXM

Lインタプリタに対してフォーム全体のコンテンツがサブミットされ,次いで,通

常のVXMLフォーム解釈に従って入力処理に進む(【0021】)。

本願発明は,通話フロー問題の理解を助けるために,通話中に何がダイアログで

行われているかをエージェントにわかるようにするVXMLアプリケーション・デ

バッガを提供する。アプリケーションの配置中に,視覚チャネルは,ASR文法が

不完全又は指示メッセージが間違って指示しているという問題点を突き止めやすく

することができる。発呼者との実時間の対話において,自動ダイアログの実行時に

エラーを繰り返し受けた発呼者に対してエージェントが聴取できるようにすること

により,視覚チャネルは,継続が危うくなった自動セッションを支援することがで

きる。エージェントは,ASRの誤りを訂正し,又はその通話を取り上げることが

できる。さらに,本願発明の視覚チャネルは,エージェントのシャドウにより音声

認識を正確にすることができる(【0031】)。

引用発明の認定の誤りについて

(1) 引用例の記載

引用例(甲1)には,おおむね次の記載がある。

ア 発明の属する技術分野

引用例に記載された発明は,利用者の音声を認識する対話型の音声認識システム

において,オペレータの負担を軽減することができるコールセンタシステムに関す

る発明である(【0001】)。

イ 発明が解決しようとする課題




コールセンタシステムにおいて,オペレータが復唱した音声を認識するシステム

の場合,利用者が正しく発声してもオペレータが間違って復唱した場合,発声を繰

り返す必要が生じる(【0003】)。

引用例に記載された発明は,オペレータの作業の負荷を軽減することができる音

声認識システム,コールセンタシステム,音声認識方法及び記録媒体を提供するこ

とを目的とする(【0004】)。

ウ 課題を解決するための手段

引用例に記載された発明は,利用者からの電話をオペレータが受け付けるコール

センタシステムにおいて,利用者の音声を受信する受信手段と,受信された利用者

の音声を分析し,第1の認識結果と当該認識結果に対する第1の認識確率とを生成

する第1の認識手段と,第1の認識手段により生成された第1の認識結果をオペレ

ータに提示する手段と,利用者の音声をオペレータに供給する手段と,オペレータ

の音声を入力する入力手段と,入力されたオペレータの音声を分析し,第2の認識

結果と当該認識結果に対する第2の認識確率とを生成する第2の認識手段と,第1

と第2の認識手段により生成された第1と第2の認識結果が一致するか否かを判別

する手段と,第1と第2の認識結果が一致すると判別された場合,第1と第2の認

識結果を最終的な認識結果として決定し,一致しないと判別された場合,第1と第

2の認識確率を比較して最終的な認識結果を選択する手段とを備える(【001

1】)。

引用例に記載された発明は,利用者の音声とオペレータの音声との双方の認識処

理を行い,それらの認識結果が異なる場合,より認識確率の高い方を最終的な認識

結果として採用するため,より認識精度の高いコールセンタシステムを実現するこ

とができる。また,オペレータは,表示された認識結果を参照しながら利用者の用

件を復唱することができるため,オペレータの作業の負荷を削減することができる

(【0012】)。

エ 発明の実施の形態




(ア) 引用例に記載された発明は,商品に関する問い合わせ,修理依頼等を電話

で受け付けるサポートセンタに設置された音声認識システム等において実施するこ

とができる(【0017】)。

引用例に記載された発明は,回線制御部,オペレータ操作部,音声認識部,主制

御部及びデータベースを有する。回線制御部は,利用者の電話からの音声を公衆回

線を介して受信し,音声認識部に転送する。また,回線制御部は,回線の接続・切

断等も行う。オペレータ操作部は,マイク,キーボード,スピーカ,表示装置等を

有する(【0018】【図1】)。

音声認識部は,音声データをA/D変換部でデジタルデータに変換し,認識処理

を行う(【0019】)。

主制御部は,音声認識部からの利用者の音声とオペレータの音声の認識結果の比

較処理を行い,また,この音声認識システム全体を制御する(【0020】)。

引用例に記載された発明は,利用者の音声の認識結果を暫定的な認識結果として

オペレータに提示し,オペレータによる人為的ミスを削減するとともに,利用者の

音声の認識結果とオペレータの音声の認識結果とを比較することにより,その認識

精度を高めることができる音声認識システムである(【0021】)。

(イ) 引用例に記載された発明では,まず,音声認識システムの回線制御部が,

公衆回線を介して利用者からの電話(発呼)を受信する。これに応答して,主制御

部は,「どのような御用件ですか?」等の用件の入力(発声)を促す旨のガイダン

スを送信する。利用者は,これに応答して,「故障修理をお願いします。」等の用

件を発声する。主制御部は,この音声の受信に応答して,オペレータ操作部のスピ

ーカを介してオペレータに利用者の音声を供給するとともに音声認識部に受信した

音声の認識を指示する(【0022】)。

音声認識部は,この指示に従い,利用者の音声を認識し,認識結果とその尤度を

主制御部に送信する。主制御部は,認識結果に対応する画面(例えば,認識結果が

「故障修理」の場合,故障修理受付画面)をオペレータ操作部の表示装置に表示す




る。オペレータは,「故障修理ですね。」のように,利用者からの音声が示す事項

を復唱する。オペレータは,表示画面より認識結果が正しいと判断した場合,その

表示画面(例えば,故障修理受付画面)を参照しながら復唱することができる。オ

ペレータの音声は,オペレータ操作部のマイクを介して主制御部に送られる(【0

023】)。

主制御部は,回線制御部と公衆回線を介してオペレータの音声を利用者に供給す

るとともに音声認識部に音声の認識を指示する。音声認識部は,この指示に従い,

オペレータの音声を認識し,認識結果とその尤度を主制御部に送信する(【002

4】)。

主制御部は,利用者の音声の認識結果及び尤度と,オペレータの音声の認識結果

及び尤度とを比較し,最終的な認識結果を生成する(【0025】)。

(ウ) 主制御部は,利用者の音声の認識結果とオペレータの音声の認識結果とが

一致するか否かを判別する。一致すると判別した場合,最終的な認識結果として,

初めに認識した利用者の音声の認識結果を選択し,処理を終了する。一致しないと

判別した場合,利用者の音声の認識確度の方が高いと,最終的な認識結果として,

利用者の音声の認識結果を選択し,処理を終了する。また,オペレータの音声の認

識確度の方が高いと,最終的な認識結果として,オペレータの音声の認識結果を選

択する(【0026】)。

上記比較処理において,最終的な認識結果として,オペレータの認識結果を選択

した場合,主制御部は,オペレータ操作部の表示装置に表示されている画面を,オ

ペレータの音声の認識結果に対応する画面に変更し,初めに認識された利用者の音

声の認識結果を訂正する(【0027】)。

このようにして,利用者とオペレータの双方の音声を認識し,それらの認識結果

を比較し,認識精度の高い方を選択することにより,より正確な認識結果を取得す

ることができる。また,初めに認識した利用者の音声の認識結果を暫定的な認識結

果としてオペレータに提示することにより,オペレータがその認識結果を参照して




利用者の音声の内容を復唱することができる。これにより,聞き間違い等の人為的

ミスを防ぎ,オペレータの作業の負荷を削減することができる(【0028】)。

(エ) 1回の用件において,利用者からの入力(発声)が複数回必要な場合,前

記の処理が繰り返される。例えば,利用者からの用件が「故障修理」の要求であっ

た場合,主制御部は,オペレータ操作部の表示装置に複数の入力項目を備える画面

を表示し,製品名を尋ねる旨のガイダンスを利用者に送信する。これに応答して,

利用者は製品名を発声する。主制御部は,この音声の受信に応答して,オペレータ

に利用者の音声を供給するとともに音声認識部に受信した音声の認識を指示する。

音声認識部は,主制御部からの指示を受けて,この製品名の認識処理を実行し,認

識結果と尤度を主制御部に渡す(【0029】【図5】)。

主制御部は,画面の製品名の入力欄に認識結果を表示する。オペレータは,スピ

ーカからの利用者の音声(製品名)を復唱する。この際,オペレータは,表示され

た認識結果を正しいと判断した場合,画面の製品名の入力欄に表示された製品名を

参照しながら復唱することができる。主制御部は,復唱された製品名を利用者に供

給するとともに音声認識部に音声の認識を指示する。主制御部は,2つの認識結果

に対して比較処理を行い,最終的な認識結果を決定する。ここで,2つの認識結果

が異なり,最終的な認識結果をオペレータが発声した製品名の認識結果とした場合,

表示画面の製品名の入力欄の認識結果を訂正する(【0030】【図5】)。

(2) 本件審決の引用発明の認定の当否

本件審決における引用発明の認定のうち,引用例に記載された発明が「利用者と

対話型音声認識システムの間の対話における音声認識方法」であると認定した点及

び「前記入力欄内に表示された前記認識結果が前記オペレータによって訂正され

る」と認定した点を除くその余の認定については,当事者間に争いがない。

ア 「利用者と対話型音声認識システムの間の対話における音声認識方法」であ

ると認定した点について

(ア) 前記(1)によると,引用例に記載された発明の音声認識システムは,コール




センタシステムで音声認識システムから入力(発声)を促す旨のガイダンスを利用

者に送信し,このガイダンスに応答して利用者が発声するものである。

また,前記(1)によると,引用例に記載された発明の音声認識システムは,オペレ

ータ操作部,音声認識部及び主制御部等を有し,オペレータ操作部は,マイク,ス

ピーカ,表示装置等を備え,オペレータは,オペレータ操作部の表示装置に表示さ

れた利用者の音声認識結果を参照するとともに,オペレータ操作部のスピーカから

の利用者の音声を復唱するものである。

そして,引用例に記載された発明の音声認識システムにおいて,オペレータが発

声した音声は音声認識部により認識され,主制御部により,利用者の音声認識結果

とオペレータの音声認識結果が比較されて,認識確度の高い方が選択され,オペレ

ータの音声認識結果が最終的な認識結果とされた場合,表示画面の入力欄に表示さ

れた初めに認識した利用者の音声認識結果は,オペレータの音声認識結果により訂

正されるものである。このように,初めに認識した利用者の音声の認識結果を暫定

的な認識結果としてオペレータに提示することにより,オペレータがその認識結果

を参照して利用者の音声の内容を復唱することができ,聞き間違い等の人為的ミス

を防ぎ,オペレータの作業の負荷を削減するという課題を解決するものである。

(イ) 前記(ア)のとおり,引用例に記載された発明は,コールセンタシステムに

おいて,音声認識システムから入力(発声)を促す旨のガイダンスを利用者に送信

し,このガイダンスに応答して利用者が発声するものである。

そうすると,引用例に記載された発明の音声認識システムは,本願発明における

「IVR(対話式音声応答)システム」と同様,「利用者」と「対話」するもので

あるというべきであるから,引用例(【0001】)に記載されているとおり,

「対話型の音声認識システム」であると認められる。

(ウ) この点について,原告は,引用例に記載された発明において,利用者が対

話する相手はオペレータであり,利用者は音声認識システム自体と対話するもので

はなく,対話型音声認識システムであるとはいえないなどと主張する。




しかしながら,前記1(2)によると,本願発明が前提とするIVRシステムとは,

「記録されたメッセージの形で発呼者に情報を提供し,記録された照会に対する発

呼者からのキーパッドまたは音声応答により情報を取得する」システム,すなわち,

利用者と対話するシステムを意味するものであるところ,引用例に記載された発明

も,コールセンタシステムにおいて,音声認識システムから入力(発声)を促す旨

のガイダンスを利用者に送信し,このガイダンスに応答して利用者が発声するもの

であるから,利用者と対話するものということができる。

したがって,原告の前記主張は採用できない。

(エ) よって,本件審決が,引用例に記載された発明が「利用者と対話型音声認

識システムの間の対話における音声認識方法」であると認定した点に誤りはない。

イ 「前記入力欄内に表示された前記認識結果が前記オペレータによって訂正さ

れる」と認定した点について

(ア) 前記ア(ア)のとおり,引用例に記載された発明の音声認識システムにおい

て,主制御部により,利用者の音声認識結果とオペレータの音声認識結果とが比較

され,オペレータの音声認識結果が最終的な認識結果とされた場合,表示画面の入

力欄に表示された初めに認識した利用者の音声認識結果は,オペレータの音声認識

結果により訂正されるものである。そして,オペレータの発声によってオペレータ

が発声した音声の認識結果が示され,場合によっては利用者の音声認識結果がオペ

レータの音声認識結果に訂正されることになるのであるから,引用例に記載された

発明は,「前記入力欄内に表示された前記認識結果が前記オペレータによって訂正

される」構成を有するものというべきである。

(イ) この点について,原告は,引用例に記載された発明では,「オペレータが

発声した音声の認識結果に基づいて主制御部により上記入力欄B1の認識結果は訂

正され」ているにすぎず,引用例が「前記入力欄内に表示された前記認識結果が前

記オペレータによって訂正される」ことを開示しているとした本件審決の認定は誤

りであるなどと主張する。




確かに,引用例に記載された発明では,主制御部により,利用者の音声認識結果

とオペレータの音声認識結果とが比較され,オペレータの音声認識結果が最終的な

認識結果とされた場合,オペレータの音声認識結果に訂正されるものである。

しかしながら,引用例に記載された発明では,前記のとおり,オペレータは利用

者の音声認識結果を確認し,当該認識結果が誤りであると判断した場合,利用者の

音声認識結果とは異なる内容を発声することにより,訂正を行うものであって,オ

ペレータによる訂正を前提として,オペレータの発声を認識した主制御部が訂正を

行うにすぎないものである。

したがって,原告の前記主張は採用できない。

(ウ) よって,本件審決が,引用例に記載された発明が,「前記入力欄内に表示

された前記認識結果が前記オペレータによって訂正される」と認定した点に誤りは

ない。

3 一致点及び相違点の認定の誤りについて

(1) 一致点について

本件審決における一致点の認定のうち,引用発明の「オペレータ」が本願発明の

「エージェント」に相当するとした点並びに本願発明と引用発明とが「エージェン

トに前記音声通信の視覚表示を提示するステップ」を有するとした点及び「前記フ

ィールド内に取り込まれた前記情報が前記エージェントによって更新される」とし

た点を除くその余の認定については,当事者間に争いがない。

ア 引用発明の「オペレータ」が本願発明の「エージェント」に相当するとした

点について

(ア) 前記1(5)によると,本願発明の「エージェント」とは,ワークステーショ

ンに表示されるウェブ・ページによって,発呼者とVXMLアプリケーションの間

の対話を見ることができ,ワークステーションに表示された発呼者からの入力デー

タを指定変更することができるものである。

(イ) 前記のとおり,引用発明において,利用者と対話するのはオペレータでは




なく対話型音声認識システムであるところ,引用発明の「オペレータ」は,利用者

の音声認識結果の表示を見ることができ,訂正することができるものであるから,

本願発明におけるエージェントと同様の機能を果たしているものということができ

る。

(ウ) この点について,原告は,一般的に,エージェントは,自立的に状況判断

を行う機能を有するものであり,単に機械を操作するオペレータよりも狭いか,あ

るいはそれとは異なる概念の構成要素を示す用語であるところ,引用発明のオペレ

ータは全ての対話についてその当事者として常に関与するのに対し,エージェント

は対話における第三者として適時に関与するものであるから,引用発明のオペレー

タは,本願発明のエージェントとは,その文言上の意味及び処理の役割が異なり,

全く相違する構成要素といえるなどと主張する。

しかしながら,引用発明におけるオペレータが,本願発明のエージェントと同様

に,利用者の音声認識結果について自立的に判断し,訂正を行うものであることは,

前記のとおりである。

また,引用発明において,利用者と対話するのは,オペレータではなく対話型音

声認識システムであるから,引用発明のオペレータは,全ての対話についてその当

事者として常に関与するものではない。のみならず,本願発明において,エージェ

ントが対話における第三者として適時に関与する構成要素であることを特定する記

載はないから,原告の主張は,本願発明の特許請求の範囲の記載に基づくものでは

ない。

したがって,原告の前記主張は採用できない。

(エ) よって,引用発明の「オペレータ」は,本願発明における「エージェン

ト」に相当するものということができ,この点に関する本件審決の認定に誤りはな

い。

イ 「エージェントに前記音声通信の視覚表示を提示するステップ」を有すると

した点及び「前記フィールド内に取り込まれた前記情報が前記エージェントによっ




て更新される」とした点について

(ア) 原告は,「エージェントに前記音声通信の視覚表示を提示するステップ」

を有するとした点及び「前記フィールド内に取り込まれた前記情報が前記エージェ

ントによって更新される」とした点についても一致点とした本件審決の認定は誤り

であると主張する。

しかしながら,原告の主張は,引用発明のオペレータが本願発明のエージェント

に相当しないことを前提とするものであり,その前提自体が誤りであることは前記

アのとおりであるから,失当である。

また,原告は,引用発明は,オペレータの作業の負荷を軽減することが解決課題

であるところ,オペレータが情報を逐一訂正するような構成は,オペレータの負担

をむしろ増加させるものであって,課題を解決することは不可能であると主張する。

しかしながら,引用発明は,初めに認識した利用者の音声の認識結果を暫定的な

認識結果としてオペレータに提示することにより,オペレータがその認識結果を参

照して利用者の音声の内容を復唱することができ,聞き間違い等の人為的ミスを防

ぎ,オペレータの作業の負荷を削減するという課題を解決するものであるから,引

用発明において,オペレータが情報を逐一訂正することが,上記課題の解決の妨げ

となるとはいえない。

したがって,原告の前記主張はいずれも採用できない。

(イ) よって,本願発明と引用発明とが「エージェントに前記音声通信の視覚表

示を提示するステップ」を有するとした点及び「前記フィールド内に取り込まれた

前記情報が前記エージェントによって更新される」とした点に係る本件審決の認定

に誤りはない。

(2) 相違点について

原告は,本件審決の一致点の認定が誤りであることを前提として,相違点の認定

もまた,誤りであると主張するが,その前提自体に理由がないことは,前記(1)のと

おりである。




したがって,本件審決の相違点の認定に誤りはない。

4 相違点1に係る判断の誤りについて

(1) 本願発明における対話の監視について

本願発明における「ユーザとIVR(対話式音声応答)システムの間の対話を監

視する方法」とは,「複数のコマンドを有するIVRスクリプトに従って前記ユー

ザからの音声通信を処理」し,「前記IVRスクリプトに基づいてエージェントに

前記音声通信の視覚表示を提示」し,「前記視覚表示が,前記音声通信と実質上同

時に提示されかつ前記ユーザから取得された情報を取り込むために少なくとも1つ

のフィールドを有し,前記フィールド内に取り込まれた前記情報が前記エージェン

トによって更新される」ものである。

また,本願明細書の【0006】の記載を併せ考えると,「ユーザとIVR(対

話式音声応答)システムの間の対話を監視する」とは,エージェントが,視覚表示

(視覚的なインターフェース)によって,ユーザとIVRシステムとの間の対話を

監視することを意味するものと解される。

(2) 引用発明の音声認識方法について

ア 引用発明では,利用者と対話型音声認識システムとの間で対話が行われると

ころ,オペレータには利用者の音声認識結果の表示が提示されるものである。

また,引用発明において,オペレータは,オペレータ操作部の表示装置に表示さ

れた利用者の音声認識結果を参照するとともに,オペレータ操作部のスピーカから

の利用者の音声を復唱するものである。

イ 引用発明において,オペレータに提示される前記アの音声認識結果の表示は,

利用者と対話型音声認識システムとの間の対話の内容であり,オペレータは,音声

認識結果の表示を監視し,復唱のために発声する際に音声認識結果を確認し,認識

結果に誤りがあると判断した場合には,これを訂正するものであるから,引用発明

において,オペレータは,提示される利用者からの音声の音声認識結果の表示によ

って,利用者と対話型音声認識システムとの間の対話を監視しているものと認めら




れる。

(3) 相違点1に係る判断の是非について

ア 原告は,本願発明では,対話における第三者であるエージェントが対話を監

視するのに対して,引用発明は対話の当事者である音声認識システムが対話を音声

認識するものであるから,本願発明と引用発明とでは,対話に対して監視のための

処理又は音声認識の処理を施す主体が異なるものであるなどと主張する。

この点について,本件審決は,引用例には,利用者とオペレータの双方の音声を

認識し,それらの認識結果を比較し,認識精度の高い方を選択することにより,よ

り正確な認識結果を取得することができると記載されていることなどから,引用発

明の音声認識方法では,音声認識システムとの対話における利用者の音声の認識結

果の精度は常に比較判断されており,このような状況は,対話が「監視されてい

る」と表現することができるとして,引用発明の「対話における音声認識方法」と

本願発明の「対話を監視する方法」との間に実質的な差異があるとは認められない

と判断しているところ,引用発明において,「利用者とオペレータの双方の音声を

認識し,それらの認識結果を比較し,認識精度の高い方を選択すること」,すなわ

ち「音声認識システムとの対話における利用者の音声の認識結果の精度」を常に比

較判断することは,「オペレータ」(本願発明の「エージェント」に相当する。)

ではなく,「音声認識システム」により行われるから,「音声認識システムとの対

話における利用者の音声の認識結果の精度」を常に比較判断することをもって,本

願発明の「対話を監視する方法」との間に実質的な差異があるとはいえないとした

本件審決の説示は,措辞不適切であるといわざるを得ない。

しかしながら,引用発明において,「利用者とオペレータの双方の音声を認識し,

それらの認識結果を比較し,認識精度の高い方を選択すること」を行う前段階にお

いて,前記(2)のとおり,オペレータは,利用者と対話型音声認識システムとの間の

対話の内容である音声認識結果の表示を監視し,復唱のために発声する際に音声認

識結果を確認し,認識結果に誤りがあると判断した場合には,これを訂正するもの




であるから,引用発明において,オペレータは,提示される利用者からの音声の音

声認識結果の表示によって,利用者と対話型音声認識システムとの間の対話を監視

しているものと認められる。

したがって,相違点1の構成,すなわち,引用発明の「対話における音声認識方

法」と本願発明の「対話を監視する方法」との間には,実質的な差異があると認め

ることはできない。

イ 原告は,引用発明において,対話は利用者とオペレータとの間に存在するか

ら,本願発明と引用発明とでは,対話を実行する構成要素が異なるものであると主

張するが,引用発明においても,対話は利用者と対話型音声認識システムとの間で

行われるから,原告の主張はその前提自体が誤りである。

ウ 以上によると,本願発明は,引用発明及び周知技術に基づいて,当業者が容

易に発明をすることができたものであるとした本件審決の判断は,その結論におい

て正当であるものというべきである。

5 結論

以上の次第であるから,原告の請求は棄却されるべきものである。

知的財産高等裁判所第4部



裁判長裁判官 土 肥 章 大




裁判官 井 上 泰 人




裁判官 荒 井 章 光