AIを活用したプログラミングの記事を作成しています!
第1章: はじめに
1-1. この記事でわかること
- Whisper APIとFlutterを組み合わせた実用的な音声入力アプリ「VoiceMemo Pro」の概要
- OpenAI APIの実践的な使い方(Whisper API + GPT-4o-mini)
- スマートフォン内のローカルストレージにデータを安全に保存する設計
- 音声入力したアイデアを自動的にビジネス文書・メール体裁に変換する工夫
- 開発過程で出現した課題(TextEditingControllerエラー等)と解決策
- VoiceMemo Pro のインストール方法と実際の使い方

1-2. 想定読者
- ビジネスマン・事業主:通勤時間を活用したい人
- ライター・ブロガー:執筆作業を効率化したい人
- AI技術に興味がある人:Whisper API、GPT-4の実践例を見たい人
- Flask開発者:実践的なアプリ開発事例を学びたい人
- プライバシーを重視する人:クラウド不要なローカル保存を求めている人
※ここで紹介するアプリは個人用でなく他の人も使えるように開発しています。以下の記事で紹介しました、自分用に開発したアプリと基本的には同じ機能を持たせていますが、大きな違いは、①自分用のアプリは生成したテキストの保存をクラウド上の自分のアカウントで登録したサーバー上に設定しているので、各人のスマホ内に記録するようにしたこと、②GPTを利用するため、各人のスマホでAPIキーを設定できるようにしたことにより、安全性を確保させたアプリにしたことが特徴です。
Whisper APIとFlutterで作る実用的な音声入力アプリ – 議事録・ブログ・要約の自動生成まで – ライフ&ジョブブログ
1-3. 開発の背景・きっかけ
通勤中に良いアイデアが思いついても、メモ帳に手書きするのは手間。しかし音声メモだけでは、後で見返すときに「これは何だったっけ?」となることがありました。😓
本当に欲しかったのは:
- 🎤 移動中に音声でアイデアを記録
- 📝 それが自動的にメール文の体裁に整形される
- 💼 そのままメールやドキュメントに貼り付けられる
- 🔒 データはスマートフォンの中に安全に保存される(クラウド不要)
- ⚡ 手間なく、すぐに使える
既存ツールの問題点:
- Google音声認識:精度が低く、整形機能がない
- Slack音声メモ:クラウド保存のみ、セキュリティ懸念
- 他の音声入力ツール:整形機能がない、複雑な設定が必要
解決策:自分専用のカスタマイズ可能なツールを作ることにしました。
そして誕生したのが VoiceMemo Pro です!🚀
第2章: 使用技術の概要
2-1. 技術スタックの全体像
| 技術 | 用途 |
|---|---|
| Flutter | UI・アプリケーション(Windows / Android対応) |
| Dart | プログラミング言語 |
| Whisper API | 音声認識 |
| GPT-4o-mini API | 文章整形・メール体裁化 |
| record パッケージ | 音声録音(Flutter公式推奨) |
| SharedPreferences | ローカルストレージ(Android / iOS対応) |
| Hive | ローカルデータベース(高速・暗号化対応) |
2-2. 各技術の役割
Flutter: クロスプラットフォーム開発で Windows / Android に対応
- 単一コードベースで複数プラットフォームにデプロイ可能
- Hot Reload による高速開発
Whisper API: 業界最高精度の日本語音声認識
- 背景ノイズに強い
- 自動で句読点を追加
- 専門用語にも対応
GPT-4o-mini: 自然言語処理で音声テキストをメール体裁に変換
- 「ビジネスモード」:敬語・丁寧語に自動変換
- 「カジュアルモード」:「だ」「である」のような日常会話の文体に変換
- 段落・見出しを自動整理
- コストが安い(GPT-4 より 90%以上安い)
SharedPreferences / Hive: データはスマートフォン内に完全保存
- クラウド不要で個人情報を保護
- オフライン環境でも動作
- 暗号化対応で高いセキュリティ
2-3. システム構成図(テキスト説明)
スマートフォン内(完全独立)
↓
[VoiceMemo Pro アプリ]
├→ 音声入力 → [record パッケージ] → 音声データ
├→ テキスト化 → [Whisper API] → テキスト
├→ 文章整形 → [GPT-4o-mini API] → 整形済みテキスト
└→ 保存 → [SharedPreferences / Hive] → スマートフォン内に保存(暗号化)
重要ポイント:
- API呼び出しのみクラウド(OpenAI)
- データは一切クラウドに保存されない
- ユーザーのスマートフォン内で完結
第3章: 実装の詳細
3-1. 環境構築
インストール手順
- BOOTH ショップからダウンロード(https://genai-tools.booth.pm/)
- ダウンロードしたファイルをダブルクリック
- インストーラーの指示に従う
- アプリ起動時に OpenAI API キーを設定
環境要件
- Windows 10 以上(メインのデスクトップ版)
- Android 8.0 以上(モバイル版)
- インターネット接続(API呼び出し時のみ)
3-2. コア機能の実装
🎤 リアルタイム音声認識と自動整形
最大の特徴:音声入力後、わずか 30秒で自動的にビジネス文に変換
実装のポイント:
- 高精度な日本語認識
recordパッケージで 16kHz サンプルレートで録音- Whisper API に送信(
language: jaを明示) - 背景ノイズに強い前処理を実装
- 句読点は自動で付与される
- GPT-4 による文章自動整形
- 音声認識されたテキストを即座に整形
- 「ビジネスモード」:敬語・丁寧語に自動変換
- 「カジュアルモード」:親友への手紙のようなトーン
- 冒頭に挨拶文を自動追加
- 段落を適切に分割
- そのままメール送信可能な品質に
- 3つの用途別自動生成機能
- 🟡 要約:長いテキストを整理(3-5行に圧縮、箇条書き化、TODO抽出)
- 🔵 ブログ:ブログ記事用に整形
- 🟢 議事録:会議内容を構造化
🔒 スマートフォン内のセキュアなローカル保存
クラウド不要で個人情報を完全保護
- SharedPreferences と Hive を組み合わせて実装
- すべてのデータはスマートフォン内の暗号化ストレージに保存
- Android キーストア、iOS キーチェーンで多重暗号化
- インターネット接続が必要な場合は API呼び出し時のみ
- 保存済みデータはオフライン環境でも閲覧可能
💰 リアルタイム利用料金表示
使用した API 呼び出しのコストを即座に計算・表示
- Whisper API:音声 1分 = 約 ¥0.6
- GPT-4o-mini:テキスト処理 = 約 ¥0.01-0.1
- 表示例:「◎ ¥0.31」(画面上部に常時表示)
ユーザーは使用量を意識でき、コスト管理が容易
3-3. 実装のポイント
ローカルストレージへの安全な保存、リアルタイムAPIコスト計算、複数の整形モードの実装が、このアプリの主要な技術的工夫です。
第4章: 実際の使用例
4-1. アプリの画面説明と使い方
📱 メイン画面の構成
上部:
- 時刻表示(例:15:04)
- 「VoiceMemo Pro」タイトル
- 電波・バッテリー等のステータスバー
タブセクション:
- 🎤 「録音」タブ:音声録音用(メインタブ)
- 📋 **「履歴」タブ:以前の記録を管理
モード選択ボタン(2つのトグル):
- ✓ 「ビジネス」:敬語・メール体裁に自動変換(デフォルト)
- 「カジュアル」:親友への手紙のようなトーン
リアルタイム情報表示:
- ⏱️ 経過時間:「◎ 完了! (19.1秒)」のように表示
- 💰 利用料金:「◎ ¥0.31」のようにリアルタイム表示
メインボタン:
- 🔵 大型「録音」ボタン(中央):タップで音声録音開始・停止
操作ボタン(録音後に表示):
- 📋 「コピー」:整形済みテキストをクリップボードにコピー
- 💾 「保存」:スマートフォン内に記録を保存
- 🗑️ 「クリア」:現在の入力をクリア
テキスト表示エリア:
- 🔤 「キテキスト」:生の音声認識テキストを表示
- これは整形される前の「生のテキスト」状態
- Whisper API が音声から認識したそのままのテキスト
- 句読点は自動で付与されているが、ビジネス文としては未整形
用途別自動生成ボタン(3つ):
- 🟡 「要約」:長いテキストを整理
- 3-5行の圧縮サマリーに変換
- 重要ポイントを箇条書きに纏める
- TODO項目を自動抽出
- 🔵 「ブログ」:ブログ記事用に整形
- 🟢 「議事録」:会議内容を構造化、決定事項・アクション項目を抽出
表示情報:
- 🔧 「API設定済み」マーク:OpenAI API キー設定完了を示す
🎯 実際の操作フロー
ステップ1: アプリを起動 → 「録音」タブを確認
ステップ2: モード選択
- ビジネスメール作成:「ビジネス」を選択
- カジュアルなチャット:「カジュアル」を選択
ステップ3: 「録音」ボタンをタップ → 音声を話す
ステップ4: 再度「録音」ボタンをタップ → 停止
ステップ5: 自動的にテキスト化 → 整形完了(30秒以内)
ステップ6: 3つの選択肢から選択
- ✅ 要約:「要約」ボタン → 3-5行に圧縮、箇条書き化、TODO抽出
- ✅ ブログに使用:「ブログ」ボタン → 記事用に最適化
- ✅ 会議議事録:「議事録」ボタン → 決定事項・アクション項目を抽出
ステップ7: 「保存」ボタンで履歴に記録
4-2. 実際の活用シーン
📱 シーン1: 通勤電車でのアイデア記録
従来の方法:
- 思いついたアイデアを手帳に手書き(3分)
- 会社到着後、それを PC でメールに転記(5分)
- 合計: 8分
VoiceMemo Pro の場合:
- 通勤電車で「VoiceMemo Pro」を起動
- 思いついたアイデアを音声で話す(2分)
- 「整形」ボタンをタップ
- すぐにメール体裁の完成文が表示(30秒)
- 合計: 2分30秒
削減時間: 5分30秒(約70%削減)
メールへの貼り付け: コピペでそのままメール送信可能 ✅
💼 シーン2: 会議中のアイデア出し
会議中に「いい提案がある」と思いついた場合:
- VoiceMemo Pro を起動(10秒)
- 「提案文書形式」でアイデアを音声入力(1分)
- 「整形」→ 自動的にビジネス提案文に変換(30秒)
- 会議後、上司にメール送信(30秒)
従来方法(手書き + 後で PC で整形): 10分
VoiceMemo Pro: 2分
削減時間: 8分(80%削減)
📧 シーン3: クライアント対応メール
クライアントから電話で要望を受けた場合:
- 通話内容を VoiceMemo Pro で記録(通話時間)
- 「メール形式」で自動整形(30秒)
- 敬語・丁寧語に自動変換済み
- そのままメール送信可能 ✅
品質:
- 元の情報を失わない ✅
- ビジネス敬語に統一 ✅
- 送信 OK の品質 ✅
4-3. 定量的な時間短縮効果
月間削減時間:
- 毎日 10分 × 20営業日 = 月200分(約3.3時間)
金銭的効果(時給 ¥2,000 で換算):
- 月 3.3時間 × ¥2,000 = 月 ¥6,600 相当
VoiceMemo Pro の価格: 月 ¥1,980
投資対効果:
- 3.3ヶ月で元が取れる
- 年間: 40時間(年 ¥80,000 相当)の時間創出
第5章: まとめ
🎯 VoiceMemo Pro でできること
✅ 通勤中のアイデアを即メール化
✅ 会議中の提案を自動整形
✅ 音声テキストをビジネス文に変換
✅ 月3時間の時間削減
✅ データはスマートフォン内に完全保存(クラウド不要)
✅ ローカルストレージで最高のセキュリティ
✅ 低コスト(月 ¥1,980)
💡 使う価値がある人
📱 通勤時間を活用したい人
💼 メール作成が多いビジネスパーソン
✍️ ライター・ブロガー
🔒 プライバシーを重視する人
⚡ 手間を減らしたい人
🚀 次のステップ
VoiceMemo Pro で、通勤時間を 時間創出タイムに変えましょう!
👉 BOOTH ショップで詳細を確認・購入: /https://genai-tools.booth.pm/
もし今回の内容が面白いと思っていただけたり、何かアドバイスなどありましたら反応して頂ければ幸いです!


コメント