【ラズベリーパイ】監視カメラの作り方｜PythonでカメラモジュールV2を自在に操作

2025.04.09更新

【PR】この記事には広告が含まれています。

【ラズベリーパイ】監視カメラの作り方｜PythonでカメラモジュールV2を自在に操作

ラズベリーパイでカメラを使ってみたい
カメラの選び方が知りたい
外出先からもカメラの画像を確認したい

ラズベリーパイは一般的なパソコンとは違い、プログラミングでのカメラ操作が必要です。

この記事ではカメラの選び方から基本的な操作方法、応用編までをわかりやすく解説します。使用する機器はカメラモジュールV2、Raspberry Pi 4、プログラミング言語はPythonを使います。

リンク

そぞら

本記事のゴールはAIを活用した物体検出により、防犯カメラや監視システムとして活用できる仕組みを構築することです。

カメラモジュールV3の使用方法は、以下の記事で解説しています。
≫ Raspberry Pi カメラモジュール V3をOpenCVで操作する方法

ラズベリーパイで使えるカメラ

ラズベリーパイでは専用に開発されたカメラモジュールや、一般的なPC周辺機器として販売されているUSB接続のカメラが使用可能です。それぞれの特徴を解説します。

コンパクトなカメラモジュール

ラズベリーパイ専用のカメラはカメラモジュールと呼ばれています。カメラモジュールとラズベリーパイはリボンケーブルというテープのような形状のケーブルで接続します。

カメラモジュールのメリットはサイズが小さいことです。このため、ラズパイ本体と組み合わせたときに、システム全体がコンパクトにまとまります。

デメリットはリボンケーブルが扱いにくいことです。リボンケーブルは形状を保とうとする力が強いため、曲げるとすぐに戻ってしまいます。このため、思い通りの場所に取り付けたり、角度を調整したりするのが難しいです。カメラの固定には工夫が必要となります。

そぞら

僕はレゴブロックを使ってカメラスタンドを作りました。

簡易的な固定方法として、洗濯ばさみを利用する方法もあります。

3Dプリンターを使って、カメラスタンドを作るという方法もあります。以下のスタンドは、3Dモデル共有サイトThingiverseで公開されているデータ（Raspberry Pi Camera Holder）をプリントしたものです。

カメラモジュールの種類

ラズベリーパイで使えるカメラモジュールは、さまざまなメーカーから発売されています。僕は公式のRaspberry Pi Camera V2を使っています。800万画素のソニー製カメラユニットを採用しており、信頼性が高いです。ラズベリーパイと接続するためのリボンケーブルも付属しています。

2023年1月にカメラモジュール V3が発売されました。V2との違いは以下の通りです。

	Camera Module 2	Camera Module 3
画素数	800万画素 (3280 × 2464)	1200万画素 (4608 x 2592)
センサー	Sony IMX219	Sony IMX708
フォーカス	手動調節式（固定フォーカス）	モーター駆動（オートフォーカス）
HDR対応	なし	あり
参考価格（KSY）	4,070円	4,620円
詳細	詳細を見る	詳細を見る

以下の安価なカメラでも、本記事のプログラムが正常に動作することを確認しています。

リンク

カメラモジュールV3は使用方法が異なります。V3の使用方法は以下の記事で解説しています。
≫ Raspberry Pi カメラモジュール V3をOpenCVで操作する方法

USB接続のカメラも使える

WEB会議などで使用するUSB接続のカメラは、ラズベリーパイ専用品ではないので使用できない可能性もあります。すでにUSBカメラを持っている方は使えるか試してみるとよいでしょう。USBカメラのメリットはカメラモジュールのリボンケーブルよりケーブルの取り回しがしやすいことです。また、固定しやすい形状のものが多く、角度の微調整も簡単に行えるものが多い印象です。

以下のUSBカメラは、本記事で紹介するプログラムが正常に動作することを確認済みのものです。

リンク

ラズベリーパイでカメラを使う準備をする

この記事で使用しているOSはRaspberry Pi OS(Legacy, 64-bit)です。OSの準備方法は以下の記事で解説しています。
≫【2025年最新版】OSインストールから初期設定まで｜開始手順のすべて

まずはカメラの接続方法とカメラを有効にする手順を解説します。

カメラモジュールの接続方法

コネクターへの接続はリボンケーブルを使います。接続手順は下記の通りです。

黒いロックを持ち上げる。
リボンケーブルを挿入する
ロックを下に押し込んで固定する

まず、カメラポートの黒いロック部分を上に持ち上げます。

リボンケーブルを差し込みます。向きに注意してください。端子部分がHDMIポート側に来るような向きにします。

黒いロック部分を押して固定します。

上に引っ張ってもケーブルが外れないことを確認します。

これでカメラの取り付けは完了です。よく分からない方は下記の動画を参考にしてください。

カメラを有効にする（カメラモジュールの場合）

カメラを接続しただけでは使えません。カメラの設定を有効にするため、まずはターミナルを開きます。

「sudo raspi-config」をターミナルに入力してenterキーを押します。

sudo raspi-config

「Interface Options」を選択してenterを押します。

「Legacy Camera Enable/disble legacy camera support」を選択。

「はい」を選択。

了解を押す

Finishを選択

「はい」を選択すると、再起動してカメラが有効化されます。

USBカメラの接続方法

USBカメラの場合はラズパイのUSBポートに差し込むだけです。どこのポートでも問題ありません。

USBカメラを使用する場合は、カメラを有効にする必要はありません。そのまま使用可能です。

ライブラリをインストールする

カメラモジュール V3を使用する場合は以下の記事をご覧ください。
≫ Raspberry Pi カメラモジュール V3をOpenCVで操作する方法

Pythonで画像を扱うためのライブラリであるOpenCVをラズパイにインストールします。ライブラリとはよく使う機能をまとめて保管している箱のようなものです。OpenCVをインストールすると、「カメラの画像を表示する」などの機能を「箱」から取り出して使えるようになります。

ターミナルを開いて、以下のコマンドを一行ずつ実行していきます。

まず、pipを最新のバージョンにします。下記のコマンドをターミナルに入力してEnterキーを押してください。

sudo python -m pip install --upgrade pip

そぞら

sudoは管理者権限で実行するときに使います。

OpenCVをバージョン指定でインストールします。

sudo pip3 install opencv-python==4.5.1.48

numpyというライブラリもバージョン指定でインストールします。

pip install numpy==1.23.1

パッケージリストを最新にします。

sudo apt update

「libatlas3-base」をインストールします。libatlas3-baseはOpenCVやNumPyで行列演算を高速化するために必要な数値計算用ライブラリ（ATLAS: Automatically Tuned Linear Algebra Software）の基本パッケージです。

sudo apt install libatlas3-base

以上でカメラを使用するための準備は完了です。

ラズベリーパイで監視カメラ【基礎編】

ラズベリーパイで監視カメラを作る方法を以下の順序で解説します。

ラズベリーパイの画面にカメラの映像を表示する。
カメラ映像が映ったラズパイの画面をスマホに表示する。

ラズパイとスマホはWi-Fiのネットワーク上に接続する必要があります。外出先からカメラの映像を確認することはできません。外出先へカメラの画像を送る方法は後ほど解説します。

Pythonプログラムでカメラ映像（動画）を表示する

カメラの映像を表示するためのPythonプログラムを作ります。プログラミングをするときはThonnyというソフトを使うのがおすすめです。

Thonnyの使い方は以下の記事で詳しく解説しています。
≫【ラズベリーパイ入門】Pythonプログラミングの始め方

まず、「Thonny」を開きます。

以下のプログラムをコピペして「camera_test.py」という名前で保存します。

import cv2

cap = cv2.VideoCapture(0)
cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))

while True:
  ret, frame = cap.read()
  if not ret:
    break

  cv2.imshow("Frame", frame)
  key = cv2.waitKey(1)
  
  # Escキーを入力されたら画面を閉じる
  if key == 27:
    break

cap.release()
cv2.destroyAllWindows()

プログラムの解説

まず1行目のimport cv2でOpenCVを使えるようにします。

cv2.VideoCapture でカメラチャンネル0を指定して、capという変数に代入します。

そぞら

カメラモジュールとUSBカメラ、どちらもチャンネル0で大丈夫です。

チェックポイント

カメラが複数接続されている場合はカメラチャンネルを-1や１などに指定して、カメラを切り替えます。

while True は繰り返し処理です。 while True 以下の文字が下がっている部分の処理を繰り返します。繰り返し処理の中身を解説します。

まず、camera.read で1コマ分のカメラ画像を読み込みます。

if not ret: の部分は映像が正しく読み込めなかった場合にプログラムを終了させる処理です。

cv2.imshow でカメラ画像を画面に表示します。 “Frame” はフレーム画面上部に表示されるタイトルなので他の文字に変更しても構いません。文字列は必ず ” “（ダブルクォーテーション）で囲む必要があります。

そぞら

1コマ分の画像表示を高速で繰り返すことで、リアルタイム映像（動画）になります。

OpenCVは waitKey 関数でキー操作を待つことができます。 Escキーが入力されたら繰り返し処理を抜けます。

camera.release() で画像データの取得を終了。 cv2.destroyAllWindows() でフレームの表示を終了させます。

プログラムの保存

プログラムは保存すると、実行できるようになります。

ファイル名は自由に付けて構いませんが、「opencv」などのライブラリ名は使わないでください。エラーの原因になります。Pythonスクリプトなので拡張子は.pyにします。

プログラムの実行

保存ができたら、プログラムを実行してみましょう。

カメラの映像が立ち上がれば成功です。

ピントの調整方法

ラズベリーパイのカメラモジュールはピント（焦点）を調整できます。文字がぼやけるなどピントが合っていないと感じたら調整してみましょう。調整方法はカメラのレンズの周りの黒い部分を左右に回します。近くのモノがはっきり見えないときは左方向に回します。逆に遠くのモノにフォーカスしたいときは右方向に回します。20～30°くらい回すだけでもピントは変わります。

そぞら

映像を確認しながら少しずつ調整しましょう。

回しすぎるとレンズが外れるので要注意です。

ラズベリーパイカメラモジュールのピント調整方法 — ラズベリーパイカメラのピント調整方法

ピント調整を手で行うのは厳しいです。ツマミが小さすぎてうまく回りません。下の動画のような専用の調整工具がカメラに同封されている場合があります。お手元にない方は工具のみ単品で購入することもできます。スイッチサイエンスで工具を見る

出典：adafruit.com

調整用工具が無い方は先の細いピンセットでも代用可能です。

スマホからカメラ映像を見る方法

VNC（Virtual Network Computing）を使えば他のパソコンやスマホからラズパイの画面が見れます。先ほど表示したカメラ映像をスマホに表示してみましょう。

ラズパイとスマホを接続するイメージは以下の通りです。

ラズパイのWi-Fi機能を利用すると、無線でネットワークカメラが構築できるのでとても便利です。

設定手順は以下の通りです。

ラズパイのVNCを有効にする
スマホにVNCアプリをインストール
ラズパイのIPアドレスとパスワードを入力して接続する
ラズパイのデスクトップ画面がスマホに表示される

スマホにラズベリーパイの画面を表示する方法は以下の記事で解説しています。

sozorablog

【ラズベリーパイ入門】スマホから遠隔操作する方法（VNC）徹底解説

https://sozorablog.com/vnc_smartphone

ラズベリーパイをWi-Fi経由で、スマホから操作する方法を解説します。接続イメージは以下の通りです。VNCとは【Virtual Network Computing】の略でネットワークを通じて、別のコンピュータに接続し、そのデスクトップ画面を呼び出して操作することができるリモートデスクトップソフトの一つです。そぞら遠隔操作をするにはラズパイとスマホがWi-Fiに接続されている必要があります。VNCサーバとVNCクライアントの2種類のソフトウェアがあります。サーバ（ラズベリーパイ側で起動）クライアント（スマホ側で起動）操作される側（ラズベリ...

ラズベリーパイで監視カメラ【応用編】

監視カメラといえば映像や静止画を記録する機能を有しているものもあります。今回はセンサーを利用して人が近付いた時に映像を保存するシステムを作ってみます。

とはいえ、いきなりセンサーを使ったプログラムを作るのはハードルが高いです。まずはセンサーを使わずに映像や静止画を保存する方法を解説します。

Pythonプログラムで静止画を保存する

カメラ映像を静止画として保存するプログラムは以下の通りです。

import cv2

cap = cv2.VideoCapture(0)
cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))
ret, frame = cap.read()
cv2.imwrite('test.jpg', frame)
cap.release()

上記のプログラムを実行すると、同じフォルダにtest.jpgというファイルが保存されます。

しかし、このプログラムには少し問題があります。それはプログラムを実行するたびにファイルが上書きされることです。ファイルが上書きされると最新の画像だけが残り、過去の画像を見ることができません。

そぞら

ファイルが上書きされないようにするには、ファイル名を都度変える必要があります。

ファイル名を時刻にして保存すると過去の画像も残る

Pythonでは現在時刻を簡単に取得できます。秒単位の現在時刻をファイル名にして保存すれば、ファイル名が毎回変わるので上書きされることはありません。

ファイル名を時刻にして画像を保存するプログラムは以下の通りです。

import cv2
import datetime

dt_now = datetime.datetime.now()
file_name = dt_now.strftime('%Y年%m月%d日%H時%M分%S秒')

cap = cv2.VideoCapture(0)
cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))
ret, frame = cap.read()
cv2.imwrite(file_name + '.jpg', frame)
cap.release()

上記のプログラムを実行すると「2022年02月14日06時32分24秒.jpg」という名前のファイルが保存されます。

Pythonプログラムで動画を保存する

カメラで撮影した映像を動画として保存するプログラムです。

import cv2
import numpy as np
 
cap = cv2.VideoCapture(0)
cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))
 
fmt = cv2.VideoWriter_fourcc('m', 'p', '4', 'v')
fps = 20.0
size = (640, 360)
writer = cv2.VideoWriter('test.m4v', fmt, fps, size)
 
while True:
    _, frame = cap.read()
    frame = cv2.resize(frame, size)
    writer.write(frame)
     
    cv2.imshow('frame', frame)
    #escキーで終了
    if cv2.waitKey(1) == 27:
        break
 
writer.release()
cap.release()
cv2.destroyAllWindows()

プログラムを実行してescキー（エスケープキー）を押すまでの間の動画が保存されます。

動画はプログラムと同じフォルダーに保存されます。

ダブルクリックして動画を再生してみましょう。

人感センサーが反応したら撮影する

ラズベリーパイにはGPIOピンがあるため電子工作が可能です。電子工作とカメラを組み合わせて人が近づいた時に撮影するシステムを組んでみましょう。

焦電型赤外線センサーを人感センサーとして使用します。
≫ 秋月電子で焦電型赤外線センサーを見る

人感センサーの接続

ラズベリーパイと人感センサーを以下のように接続します。

線の色	センサー側	ラズベリーパイ側
赤	＋	5V
オレンジ	OUT	GPIO 18
黒	－	GND

人感センサーの接続

基板側の3つのツマミで感度などの調整が可能です。

感度調整方法など、焦電型赤外線センサーの使い方は以下の記事で詳しく解説しています。
≫ 焦電型赤外線センサーの使い方

僕は3Dプリンターでカメラとセンサーのマウントを作成しました。

上記の写真ではセンサーの動作を可視化するため、LEDを使っています。本記事のプログラムではLED点灯の部分は省略しています。

人感センサーが反応したら静止画を保存するプログラム

import RPi.GPIO as GPIO
import cv2
import time
import datetime

GPIO_PIN = 18

GPIO.setmode(GPIO.BCM)
GPIO.setup(GPIO_PIN,GPIO.IN)

while True:
    if(GPIO.input(GPIO_PIN) == GPIO.HIGH):
       
        print("1")
       
        dt_now = datetime.datetime.now()
        file_name = dt_now.strftime('%Y年%m月%d日%H時%M分%S秒')
        print(file_name)
       
        cap = cv2.VideoCapture(0)
        cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))
        ret, frame = cap.read()
        cv2.imwrite(file_name + '.jpg', frame)
        cap.release()
       
        time.sleep( 10 )
       
    else:
        print("0")
        time.sleep( 1 )

上記のプログラムを実行すると、人が近づいた時にカメラモジュールで静止画を撮影して保存されます。

人感センサーが反応したら動画を保存するプログラム

import RPi.GPIO as GPIO
import cv2
import time
import datetime
import numpy as np

GPIO_PIN = 18

GPIO.setmode(GPIO.BCM)
GPIO.setup(GPIO_PIN,GPIO.IN)

while True:
    if(GPIO.input(GPIO_PIN) == GPIO.HIGH):
        
        print("1")
        
        dt_now = datetime.datetime.now()
        file_name = dt_now.strftime('%Y年%m月%d日%H時%M分%S秒')
        print(file_name)
        
        #カメラ映像を保存する
        cap = cv2.VideoCapture(0)
        cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))
        fmt = cv2.VideoWriter_fourcc('m', 'p', '4', 'v')
        fps = 20.0
        size = (640, 360)
        writer = cv2.VideoWriter((file_name + '.m4v'), fmt, fps, size)
        
        i = 0
        #60フレーム撮影する
        while i < 60:
            _, frame = cap.read()
            frame = cv2.resize(frame, size)
            writer.write(frame)
     
            i = i + 1
             
        writer.release()
        cap.release()
        
        time.sleep( 10 )
        
    else:
        print("0")
        time.sleep( 1 )
GPIO.cleanup()

上記のプログラムを実行すると、３秒程度の動画が保存されます。録画時間を変更したいときは30行目の「60」の数値を変更してください。

外出先からカメラの映像を確認する方法

外出先からカメラの映像を確認する方法はいくつかあります。

Wi-Fiルーターの設定を変更する方法: ルーターの設定を変えれば、ネットワーク外からカメラの映像を見ることも可能ですが、セキュリティ上のリスクが高いためおすすめできません。
メールなどの既存サービスを利用する方法: 安全に映像を確認する手段として、メールなどのサービスを活用する方法があります。たとえば、センサーが反応したときにカメラで撮影し、その画像を自動で送信する仕組みを作ることができます。ただし、この方法ではリアルタイムで映像を見るのには向きません。
Raspberry Pi Connect を使う方法: Raspberry Pi公式のリモートアクセスツール Raspberry Pi Connect を使えば、特別な設定なしで外出先からカメラの映像を確認できます。これにより、安全かつ手軽にリモート監視が可能になります。Raspberry Pi Connectの詳細は「外からラズパイを操作！Raspberry Pi Connectの設定方法」で紹介しています。

そぞら

ここではセンサーが反応したときに画像をGmailで通知するプログラムを組んでみましょう。

人感センサーが反応したときのカメラ画像をGmailで送信する

GmailのSMTPサーバーを利用すると、メールをプログラムから自動送信できます。ここでは人感センサーが反応したタイミングで撮影した画像を、Gmailで通知する方法を紹介します。

PyhtonプログラムでGmailを送信する

まずはPyhtonプログラムでGmailを送信する方法を確認していきます。

アプリパスワードの取得

まず、Googleのアプリパスワードを取得します。アプリパスワードとは、プログラムからGoogleアカウントにアクセスするために発行される16桁のパスワードです。

ブラウザで Googleのアプリパスワードの設定ページを開きます。Google アカウントのログインが求められる場合、使用するメールアドレスとパスワードを入力してログインしてください。

アプリ名を入力します。「Raspberry Pi」など分かりやすい名前を入力することをおすすめします。「作成」をクリックするとアプリパスワードが生成されます。

表示された16桁のアプリパスワードをコピーして、Pythonプログラムで使用します。パスワードは再表示ができないため、必要に応じて安全な場所に控えておいてください。

Gmail送信テスト

以下のコードはPyhtonプログラムでGmailを送信するためのものです。

import smtplib

# 変数の定義
YOUR_GMAIL_ADDRESS = "xxxxx@gmail.com"  # Gmailアドレス
APP_PASSWORD = "xxxxxxxxxxxxxxxx"       # アプリパスワード
TO_ADDRESS = "recipient@gmail.com"    # 送信先アドレス
SMTP_SERVER = "smtp.gmail.com"          # SMTPサーバー
SMTP_PORT = 587                         # SMTPポート番号
EMAIL_SUBJECT = "Test Mail from Python" # メールの件名
EMAIL_BODY = "This is a test email sent using Python."  # メール本文

# メール送信処理
connection = smtplib.SMTP(SMTP_SERVER, SMTP_PORT)
connection.set_debuglevel(True)  # デバッグ出力を有効化
connection.starttls()  # TLS暗号化を開始
connection.login(YOUR_GMAIL_ADDRESS, APP_PASSWORD)  # Gmailにログイン

# メールを送信
message = f"Subject: {EMAIL_SUBJECT}\n\n{EMAIL_BODY}"  # メール全体を構築
connection.sendmail(YOUR_GMAIL_ADDRESS, TO_ADDRESS, message)

# 接続を終了
connection.quit()

最初に、Gmailアドレスやアプリパスワード、送信先アドレス、SMTPサーバーやポート番号、メールの件名や本文などを変数に定義します。これらの変数には、自分のGmailアカウント情報やメール内容を適切に設定する必要があります。
次に、smtplibを使ってSMTPサーバーに接続し、TLS暗号化を開始して安全に通信できるようにします。その後、Gmailアカウントにログインし、件名と本文を含めたメールメッセージを作成します。
最後に、sendmailメソッドを使ってメールを送信し、接続を終了します。

画像ファイルを添付してメールを送信

メールの送信テストが完了したら、次に画像を添付する方法をチェックしてみましょう。

import smtplib
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
from email.mime.base import MIMEBase
from email import encoders

# 変数の定義
YOUR_GMAIL_ADDRESS = "xxxxx@gmail.com"  # Gmailアドレス
APP_PASSWORD = "xxxxxxxxxxxxxxxx"       # アプリパスワード
TO_ADDRESS = "recipient@gmail.com"    # 送信先アドレス
SMTP_SERVER = "smtp.gmail.com"          # SMTPサーバー
SMTP_PORT = 587                         # SMTPポート番号
EMAIL_SUBJECT = "Test Mail with Attachment" # メールの件名
EMAIL_BODY = "This is a test email with an attached image file."  # メール本文
ATTACHMENT_PATH = "image.jpg"  # 添付ファイルのパス

# メールオブジェクトの作成
message = MIMEMultipart()
message["From"] = YOUR_GMAIL_ADDRESS
message["To"] = TO_ADDRESS
message["Subject"] = EMAIL_SUBJECT

# メール本文を追加
message.attach(MIMEText(EMAIL_BODY, "plain"))

# 添付ファイルを読み込み
with open(ATTACHMENT_PATH, "rb") as attachment:
    part = MIMEBase("application", "octet-stream")
    part.set_payload(attachment.read())
    encoders.encode_base64(part)
    part.add_header("Content-Disposition", f"attachment; filename={ATTACHMENT_PATH}")

# 添付ファイルをメールに追加
message.attach(part)

# メール送信処理
connection = smtplib.SMTP(SMTP_SERVER, SMTP_PORT)
connection.starttls()
connection.login(YOUR_GMAIL_ADDRESS, APP_PASSWORD)
connection.send_message(message)
connection.quit()

15行目のATTACHMENT_PATH変数で、添付するファイルのパスを設定します。

人感センサーが反応したときにGmailで通知する

人感センサーが反応したとき写真をGmail送信するコードは以下のようになります。

import RPi.GPIO as GPIO
import cv2
import time
import datetime
import smtplib
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
from email.mime.base import MIMEBase
from email import encoders

# Gmail送信の関数
def send_gmail(Discovery_time):
    YOUR_GMAIL_ADDRESS = "xxxxx@gmail.com"  # Gmailアドレス
    APP_PASSWORD = "xxxxxxxxxxxxxxxx"       # アプリパスワード
    TO_ADDRESS = "recipient@gmail.com"    # 送信先アドレス
    SMTP_SERVER = "smtp.gmail.com"          # SMTPサーバー
    SMTP_PORT = 587                         # SMTPポート番号
    EMAIL_SUBJECT = "侵入者検知アラート"     # メールの件名
    EMAIL_BODY = f"侵入者を検知しました。\n検出時間: {Discovery_time}"  # メール本文

    try:
        # メール作成
        msg = MIMEMultipart()
        msg['From'] = YOUR_GMAIL_ADDRESS
        msg['To'] = TO_ADDRESS
        msg['Subject'] = EMAIL_SUBJECT

        # メール本文を追加
        msg.attach(MIMEText(EMAIL_BODY, 'plain'))

        # 画像ファイルを添付
        attachment = open("image.jpg", "rb")
        part = MIMEBase('application', 'octet-stream')
        part.set_payload(attachment.read())
        encoders.encode_base64(part)
        part.add_header('Content-Disposition', 'attachment; filename="image.jpg"')
        msg.attach(part)

        # メール送信
        connection = smtplib.SMTP(SMTP_SERVER, SMTP_PORT)
        connection.starttls()
        connection.login(YOUR_GMAIL_ADDRESS, APP_PASSWORD)
        connection.send_message(msg)
        connection.quit()
        print("メール送信成功")

    except Exception as e:
        print(f"メール送信失敗: {str(e)}")

# センサーを使う準備
GPIO_PIN = 18
GPIO.setmode(GPIO.BCM)
GPIO.setup(GPIO_PIN, GPIO.IN)

while True:
    if GPIO.input(GPIO_PIN) == GPIO.HIGH:
        # センサー検出時の処理
        print("1")

        # 検出時間の取得
        dt_now = datetime.datetime.now()
        Discovery_time = dt_now.strftime('%Y年%m月%d日%H時%M分%S秒')
        print(Discovery_time)

        # カメラ画像を保存する
        cap = cv2.VideoCapture(0)
        cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))
        ret, frame = cap.read()
        if ret:
            cv2.imwrite("image.jpg", frame)
            print("画像保存成功")
        else:
            print("カメラキャプチャ失敗")
        cap.release()

        # Gmail送信
        send_gmail(Discovery_time)

        # 10秒待機
        time.sleep(10)
    else:
        # センサー未検出時の処理
        print("0")
        time.sleep(1)

GPIO.cleanup()

Raspberry PiのGPIO18ピンに接続されたセンサーが反応すると、カメラで写真を撮影し、その画像と検出日時を含めたメールを自動送信します。

顔認識の活用

OpenCVを活用すれば、顔認識などの本格的なAIカメラを作ることも可能です。

リアルタイムで顔を検出する

カメラ映像からリアルタイムで人の顔を探し出して、四角で囲むプログラムは以下の通りです。

import cv2

HAAR_FILE = \
"/usr/local/lib/python3.9/dist-packages/cv2/data/"\
"haarcascade_frontalface_default.xml"
cascade = cv2.CascadeClassifier(HAAR_FILE)

cap = cv2.VideoCapture(0)
cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))

while(True):
    ret, frame = cap.read()
    
    face = cascade.detectMultiScale(frame)

    for x, y, w, h in face:
        cv2.rectangle(frame,(x,y),(x+w,y+h),(0,0,255),1)

    cv2.imshow('Capture',frame)
    
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()

プログラムを実行すると以下のように表示されます。※顔部分は後から加工により消しています。

顔認識と電子工作を組み合わせる

認識するだけでは面白くないので、電子工作と顔認識を組み合わせてみましょう。顔を認識したときにLEDを光らせてみます。

LEDとラズベリーパイは以下のように接続します。LEDに電流を流しすぎると壊れてしまうので100Ωの抵抗を使用しています。

ラズベリーパイでLEDを点滅させる方法について以下の記事で詳しく解説しています。
≫【ラズベリーパイ電子工作の始め方】失敗したくない初心者のための完全ガイド

プログラムは以下の通りです。

import cv2
from gpiozero import LED
import time

led = LED(18)

HAAR_FILE = \
"/usr/local/lib/python3.9/dist-packages/cv2/data/"\
"haarcascade_frontalface_default.xml"
cascade = cv2.CascadeClassifier(HAAR_FILE)

cap = cv2.VideoCapture(0)
cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))

while(True):
    ret, frame = cap.read()
    
    face = cascade.detectMultiScale(frame)
    
    if len(face) > 0:
        led.on()

        for x, y, w, h in face:
            cv2.rectangle(frame,(x,y),(x+w,y+h),(0,0,255),1)
            
    else:
        led.off()
        
    cv2.imshow('Capture',frame)
    
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()

20行目のif len(face) > 0: は、顔検出結果が1つ以上あるかどうかをチェックする条件文です。cascade.detectMultiScale(frame) は、フレーム中に検出されたすべての顔をリストとして返します。
そのリストの長さ（len(face)）が0より大きい場合（つまり、1つ以上の顔が検出された場合）に、LEDを点灯させます。顔が検出されなかった場合（リストが空の場合）、LEDを消灯します。

プログラムを実行すると、顔を認識したときにLEDが点灯します。

21行目のLED点灯部分を変更すれば、ブザーを鳴らしたり、メールを送信したりといった多彩なアクションが実現できます。

顔認識によりメール通知する

以下は顔を検出したときにメール通知するスクリプトです。

import cv2
import datetime
import time
import smtplib
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
from email.mime.base import MIMEBase
from email import encoders

# Gmail送信の関数
def send_gmail(Discovery_time):
    YOUR_GMAIL_ADDRESS = "xxxxx@gmail.com"  # Gmailアドレス
    APP_PASSWORD = "xxxxxxxxxxxxxxxx"       # アプリパスワード
    TO_ADDRESS = "xxxxx@gmail.com"    # 送信先アドレス
    SMTP_SERVER = "smtp.gmail.com"          # SMTPサーバー
    SMTP_PORT = 587                         # SMTPポート番号
    EMAIL_SUBJECT = "侵入者検知アラート"     # メールの件名
    EMAIL_BODY = f"侵入者を検知しました。\n検出時間: {Discovery_time}"  # メール本文

    try:
        # メール作成
        msg = MIMEMultipart()
        msg['From'] = YOUR_GMAIL_ADDRESS
        msg['To'] = TO_ADDRESS
        msg['Subject'] = EMAIL_SUBJECT

        # メール本文を追加
        msg.attach(MIMEText(EMAIL_BODY, 'plain'))

        # 画像ファイルを添付
        attachment = open("image.jpg", "rb")
        part = MIMEBase('application', 'octet-stream')
        part.set_payload(attachment.read())
        encoders.encode_base64(part)
        part.add_header('Content-Disposition', 'attachment; filename="image.jpg"')
        msg.attach(part)

        # メール送信
        connection = smtplib.SMTP(SMTP_SERVER, SMTP_PORT)
        connection.starttls()
        connection.login(YOUR_GMAIL_ADDRESS, APP_PASSWORD)
        connection.send_message(msg)
        connection.quit()
        print("メール送信成功")

    except Exception as e:
        print(f"メール送信失敗: {str(e)}")

# 顔認識用のカスケード分類器のパス
HAAR_FILE = "/usr/local/lib/python3.9/dist-packages/cv2/data/haarcascade_frontalface_default.xml"
cascade = cv2.CascadeClassifier(HAAR_FILE)

# メッセージ送信の間隔時間（秒）
wait_time = 30  # 30秒間隔

#連続して顔を検出する必要があるフレーム数
consecutive_frames_required = 2  # 2フレーム連続

cap = cv2.VideoCapture(0)
cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))

# 最後にメッセージを送信した時間を記録
last_notification_time = time.time() - wait_time  # 初回実行時にすぐ送信されるように調整

# 連続して顔が検出されたフレーム数を記録
consecutive_frames = 0

while True:
    ret, frame = cap.read()

    # 顔を検出
    face = cascade.detectMultiScale(frame)

    # 顔を検出した場合
    if len(face) > 0:
        consecutive_frames += 1
        for x, y, w, h in face:
            cv2.rectangle(frame, (x, y), (x + w, y + h), (0, 0, 255), 1)

        # 連続して顔が検出されたフレーム数が設定値を超えた場合
        if consecutive_frames >= consecutive_frames_required:
            current_time = time.time()
            # 30秒間隔でメッセージを送信する
            if current_time - last_notification_time > wait_time:
                cv2.imwrite("image.jpg", frame)

                # 検出時間の取得
                dt_now = datetime.datetime.now()
                discovery_time = dt_now.strftime('%Y年%m月%d日%H時%M分%S秒')
                print(discovery_time)
                
                # Gmail送信
                send_gmail(discovery_time)

                last_notification_time = current_time
                consecutive_frames = 0  # カウントリセット

    else:
        consecutive_frames = 0  # 顔が検出されなかったらカウントリセット

    cv2.imshow('Capture', frame)

    # 'q'キーで終了
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()

21行目のwait_time変数は連続してメール通知するのを防ぐために設定しました。メッセージ送信後、指定した時間が経過するまで次の送信を行いません。設定値は使用状況により適宜変更してください。

24行目のconsecutive_frames_requiredは誤検知での送信を減らすために設定した変数です。2の場合、2フレーム連続で顔を検知した場合に通知します。この数値を増やすと誤検知での通知は減少しますが、即時性が悪くなります。こちらの数値も適宜調整してください。

カメラ映像からリアルタイムで物体を検出

ここから先のコードを実行するには、64ビット版のRaspberry Pi OSが必要です。

顔だけでなくさまざまな物体をリアルタイムで検出するプログラムをRaspberry Pi上で実行する方法を紹介します。MediaPipeのオブジェクト検出モデルを使用し、カメラ映像をもとに効率的な推論を行うものです。

そぞら

MediaPipeはGoogleが提供するライブラリで、物体検出やジェスチャー認識などのビジョンタスクを簡単に実装できるツールです。

まずは、ターミナルを開き、以下のコマンドを実行していきます。

カメラ制御に必要な libcap ライブラリの開発用ヘッダーをインストールします。

sudo apt install libcap-dev

MediaPipeのサンプルコードを含むリポジトリをRaspberry Piにコピーします。

git clone https://github.com/googlesamples/mediapipe.git

Raspberry Pi用の物体検出のサンプルコードがあるディレクトリに移動します。

cd mediapipe/examples/object_detection/raspberry_pi

物体検出プログラムを実行するために必要な環境をセットアップします。32ビット版のRaspberry Pi OSでは、この段階でエラーが発生する場合があります。この場合は64ビット版の使用を推奨します。

sh setup.sh

検出した物体を表示する

以下のコードを、/home/pi/mediapipe/examples/object_detection/raspberry_piに保存します。

#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import argparse
import sys
import time
import cv2
import mediapipe as mp
from mediapipe.tasks import python
from mediapipe.tasks.python import vision
from utils import visualize

# FPSを計算し推論を制御するためのグローバル変数
COUNTER, FPS = 0, 0
START_TIME = time.time()
is_inference_in_flight = False  # 推論中かどうかを制御するフラグ
latest_detection_result = None  # 最新の検出結果を格納する変数


def run(model: str, max_results: int, score_threshold: float, 
        camera_id: int, width: int, height: int) -> None:
    """カメラから取得した映像に対して継続的に推論を実行します。

    引数:
        model: TFLite物体検出モデルの名前。
        max_results: 検出結果の最大数。
        score_threshold: 検出結果のスコア閾値。
        camera_id: OpenCVに渡すカメラID。
        width: カメラから取得するフレームの幅。
        height: カメラから取得するフレームの高さ。
    """
    global is_inference_in_flight, latest_detection_result

    # カメラからの映像入力を開始
    cap = cv2.VideoCapture(camera_id)
    cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))
    cap.set(cv2.CAP_PROP_FRAME_WIDTH, width)
    cap.set(cv2.CAP_PROP_FRAME_HEIGHT, height)

    # 表示用パラメータ
    row_size = 50  # ピクセル
    left_margin = 24  # ピクセル
    text_color = (0, 0, 0)  # 黒
    font_size = 1
    font_thickness = 1
    fps_avg_frame_count = 10

    def save_result(result: vision.ObjectDetectorResult, unused_output_image: mp.Image, timestamp_ms: int):
        """推論が完了した際に呼び出されるコールバック関数。"""
        global is_inference_in_flight, latest_detection_result, COUNTER, START_TIME, FPS

        # 推論が完了したことをマーク
        is_inference_in_flight = False

        # FPSを更新
        if COUNTER % fps_avg_frame_count == 0:
            current_time = time.time()
            FPS = fps_avg_frame_count / (current_time - START_TIME)
            START_TIME = current_time

        latest_detection_result = result
        COUNTER += 1

    # 物体検出モデルを初期化
    base_options = python.BaseOptions(model_asset_path=model)
    options = vision.ObjectDetectorOptions(
        base_options=base_options,
        running_mode=vision.RunningMode.LIVE_STREAM,
        max_results=max_results,
        score_threshold=score_threshold,
        result_callback=save_result
    )
    detector = vision.ObjectDetector.create_from_options(options)

    # カメラから継続的に映像を取得し推論を実行
    while cap.isOpened():
        success, image = cap.read()
        if not success:
            sys.exit(
                'エラー: ウェブカメラから映像を読み取れません。カメラ設定を確認してください。'
            )

        # TFLiteモデルが要求する形式に合わせて映像をBGRからRGBに変換
        rgb_image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=rgb_image)

        # 前回の推論が完了している場合のみ新しい推論を開始
        if not is_inference_in_flight:
            detector.detect_async(mp_image, time.time_ns() // 1_000_000)
            is_inference_in_flight = True

        # FPSを表示
        fps_text = 'FPS = {:.1f}'.format(FPS)
        text_location = (left_margin, row_size)
        current_frame = image
        cv2.putText(current_frame, fps_text, text_location, cv2.FONT_HERSHEY_DUPLEX,
                    font_size, text_color, font_thickness, cv2.LINE_AA)

        # 最新の検出結果がある場合は可視化
        if latest_detection_result is not None:
            current_frame = visualize(current_frame, latest_detection_result)

        cv2.imshow('object_detection', current_frame)

        # ESCキーが押されたらプログラムを終了
        if cv2.waitKey(1) == 27:
            break

    detector.close()
    cap.release()
    cv2.destroyAllWindows()


def main():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter)
    parser.add_argument(
        '--model',
        help='物体検出モデルのパス。',
        required=False,
        default='efficientdet.tflite')
    parser.add_argument(
        '--maxResults',
        help='検出結果の最大数。',
        required=False,
        default=5)
    parser.add_argument(
        '--scoreThreshold',
        help='検出結果のスコア閾値。',
        required=False,
        type=float,
        default=0.25)
    parser.add_argument(
        '--cameraId', help='カメラのID。', required=False, type=int, default=0)
    parser.add_argument(
        '--frameWidth',
        help='カメラから取得するフレームの幅。',
        required=False,
        type=int,
        default=800)
    parser.add_argument(
        '--frameHeight',
        help='カメラから取得するフレームの高さ。',
        required=False,
        type=int,
        default=600)
    args = parser.parse_args()

    run(args.model, int(args.maxResults),
        args.scoreThreshold, int(args.cameraId), args.frameWidth, args.frameHeight)


if __name__ == '__main__':
    main()

プログラムの保存場所が異なると、モジュールの読み込み時にエラーが発生するので注意が必要です。

上記のプログラムはRaspberry Piに接続されたカメラを使い、MediaPipeを利用してリアルタイムで物体を検出し、その結果を画面に表示するものです。具体的には、カメラから取得した映像をTFLite（TensorFlow Lite）モデルに入力し、物体の検出を行っています。TFLiteは軽量かつ効率的な機械学習モデルを動作させるためのプラットフォームで、Raspberry Piのようなリソースの限られた環境での使用に最適化されています。

まず、カメラから映像を取得し、それをBGR形式からRGB形式に変換します。これはTFLiteモデルがRGB形式を要求するために必要です。その後、映像が物体検出モデルに送られ、推論によって検出された物体の情報が返されます。この情報をもとに、画面上に物体を囲む枠や名前を描画し、何が検出されたのかを表示します。

このプログラムは、サンプルコードとして提供されているdetect.pyを改良したものです。元のdetect.pyは処理が重く、フリーズしてしまう問題がありました。そこで、「推論中に新しい推論を開始しない」という制御を追加することで、安定した動作を実現しています。

このプログラムで検出できる物体の一例を次に示します。

人（person）
自動車（car）
バイク（motorcycle）
自転車（bicycle）
バス（bus）
トラック（truck）
ボトル（bottle）
テレビ（tv）
ノートパソコン（laptop）
椅子（chair）
ベッド（bed）
マウス（mouse）
携帯電話（cellphone）

検出した物体をカウントする

特定の物体を検出した場合にその数をカウントすることもできます。以下のコードを、/home/pi/mediapipe/examples/object_detection/raspberry_piに保存します。

#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import argparse
import sys
import time
import cv2
import mediapipe as mp
from mediapipe.tasks import python
from mediapipe.tasks.python import vision
from utils import visualize

# 任意の物体名を指定する変数（ここで変更可能）
target_object = "car"  # ここを好きな物体名に変更できる

# FPSを計算し推論を制御するためのグローバル変数
COUNTER, FPS = 0, 0
START_TIME = time.time()
is_inference_in_flight = False  # 推論中かどうかを制御するフラグ
latest_detection_result = None  # 最新の検出結果を格納する変数


def run(model: str, max_results: int, score_threshold: float, 
        camera_id: int, width: int, height: int) -> None:
    """カメラから取得した映像に対して継続的に推論を実行します。

    引数:
        model: TFLite物体検出モデルの名前。
        max_results: 検出結果の最大数。
        score_threshold: 検出結果のスコア閾値。
        camera_id: OpenCVに渡すカメラID。
        width: カメラから取得するフレームの幅。
        height: カメラから取得するフレームの高さ。
    """
    global is_inference_in_flight, latest_detection_result

    # カメラからの映像入力を開始
    cap = cv2.VideoCapture(camera_id)
    cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))
    cap.set(cv2.CAP_PROP_FRAME_WIDTH, width)
    cap.set(cv2.CAP_PROP_FRAME_HEIGHT, height)

    # 表示用パラメータ
    row_size = 50  # ピクセル
    left_margin = 24  # ピクセル
    text_color = (0, 0, 0)  # 黒
    font_size = 1
    font_thickness = 1
    fps_avg_frame_count = 10

    def save_result(result: vision.ObjectDetectorResult, unused_output_image: mp.Image, timestamp_ms: int):
        """推論が完了した際に呼び出されるコールバック関数。"""
        global is_inference_in_flight, latest_detection_result, COUNTER, START_TIME, FPS

        # 推論が完了したことをマーク
        is_inference_in_flight = False

        # FPSを更新
        if COUNTER % fps_avg_frame_count == 0:
            current_time = time.time()
            FPS = fps_avg_frame_count / (current_time - START_TIME)
            START_TIME = current_time
            
        # target_objectの数をカウント
        target_count = sum(1 for detection in result.detections
                           if detection.categories[0].category_name == target_object)
        
        print(f"検出された{target_object}の数: {target_count}")           

        latest_detection_result = result
        COUNTER += 1

    # 物体検出モデルを初期化
    base_options = python.BaseOptions(model_asset_path=model)
    options = vision.ObjectDetectorOptions(
        base_options=base_options,
        running_mode=vision.RunningMode.LIVE_STREAM,
        max_results=max_results,
        score_threshold=score_threshold,
        result_callback=save_result
    )
    detector = vision.ObjectDetector.create_from_options(options)

    # カメラから継続的に映像を取得し推論を実行
    while cap.isOpened():
        success, image = cap.read()
        if not success:
            sys.exit(
                'エラー: ウェブカメラから映像を読み取れません。カメラ設定を確認してください。'
            )

        # TFLiteモデルが要求する形式に合わせて映像をBGRからRGBに変換
        rgb_image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=rgb_image)

        # 前回の推論が完了している場合のみ新しい推論を開始
        if not is_inference_in_flight:
            detector.detect_async(mp_image, time.time_ns() // 1_000_000)
            is_inference_in_flight = True

        # FPSを表示
        fps_text = 'FPS = {:.1f}'.format(FPS)
        text_location = (left_margin, row_size)
        current_frame = image
        cv2.putText(current_frame, fps_text, text_location, cv2.FONT_HERSHEY_DUPLEX,
                    font_size, text_color, font_thickness, cv2.LINE_AA)

        # 最新の検出結果がある場合は可視化
        if latest_detection_result is not None:
            # 可視化処理を実行
            current_frame = visualize(current_frame, latest_detection_result)

            # target_objectのカウントを計算
            target_count = sum(1 for detection in latest_detection_result.detections
                               if detection.categories[0].category_name == target_object)

            # target_objectのカウントを画面に表示
            count_text = f'{target_object} = {target_count}'
            count_location = (left_margin, row_size * 2)
            cv2.putText(current_frame, count_text, count_location, cv2.FONT_HERSHEY_DUPLEX,
                        font_size, text_color, font_thickness, cv2.LINE_AA)            

        cv2.imshow('object_detection', current_frame)

        # ESCキーが押されたらプログラムを終了
        if cv2.waitKey(1) == 27:
            break

    detector.close()
    cap.release()
    cv2.destroyAllWindows()


def main():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter)
    parser.add_argument(
        '--model',
        help='物体検出モデルのパス。',
        required=False,
        default='efficientdet.tflite')
    parser.add_argument(
        '--maxResults',
        help='検出結果の最大数。',
        required=False,
        default=5)
    parser.add_argument(
        '--scoreThreshold',
        help='検出結果のスコア閾値。',
        required=False,
        type=float,
        default=0.25)
    parser.add_argument(
        '--cameraId', help='カメラのID。', required=False, type=int, default=0)
    parser.add_argument(
        '--frameWidth',
        help='カメラから取得するフレームの幅。',
        required=False,
        type=int,
        default=800)
    parser.add_argument(
        '--frameHeight',
        help='カメラから取得するフレームの高さ。',
        required=False,
        type=int,
        default=600)
    args = parser.parse_args()

    run(args.model, int(args.maxResults),
        args.scoreThreshold, int(args.cameraId), args.frameWidth, args.frameHeight)


if __name__ == '__main__':
    main()

24行目の「target_object」という変数で、カウントする物体（例えば「car」など）を指定しています。この物体を検出したときに、その数をカウントして画面に表示します。この変数を変更することで、他の物体をターゲットにできます。

このコードの応用例を考えてみます。例えば、カメラに映る人の数が一定以上になった際に特定の処理を実行できます。店舗内の混雑状況を把握したり、その情報をデータ化するなど、さまざまな用途に活用できそうです。

刃物（ナイフ）を検出したときにGmailで通知する

本項では応用として、カメラ映像内にナイフを検出した際に通知を送る方法を解説します。

以下のコードを実装することで、カメラ映像内にナイフが映った際にメール通知が送られるようになります。32行目のGoogleのアプリパスワードを取得する手順はアプリパスワードの取得を参考にしてください。

#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import argparse
import sys
import time
import cv2
import mediapipe as mp
from mediapipe.tasks import python
from mediapipe.tasks.python import vision
from utils import visualize
import datetime
import smtplib
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
from email.mime.base import MIMEBase
from email import encoders

# Gmail送信の関数
def send_gmail(Discovery_time):
    YOUR_GMAIL_ADDRESS = "xxxxx@gmail.com"  # Gmailアドレス
    APP_PASSWORD = "xxxxxxxxxx"       # アプリパスワード
    TO_ADDRESS = "xxxxx@gmail.com"    # 送信先アドレス
    SMTP_SERVER = "smtp.gmail.com"          # SMTPサーバー
    SMTP_PORT = 587                         # SMTPポート番号
    EMAIL_SUBJECT = "ナイフ検知アラート"     # メールの件名
    EMAIL_BODY = f"ナイフが検出されました！\n検出時間: {Discovery_time}"  # メール本文

    try:
        # メール作成
        msg = MIMEMultipart()
        msg['From'] = YOUR_GMAIL_ADDRESS
        msg['To'] = TO_ADDRESS
        msg['Subject'] = EMAIL_SUBJECT

        # メール本文を追加
        msg.attach(MIMEText(EMAIL_BODY, 'plain'))

        # 画像ファイルを添付
        attachment = open("image.jpg", "rb")
        part = MIMEBase('application', 'octet-stream')
        part.set_payload(attachment.read())
        encoders.encode_base64(part)
        part.add_header('Content-Disposition', 'attachment; filename="image.jpg"')
        msg.attach(part)

        # メール送信
        connection = smtplib.SMTP(SMTP_SERVER, SMTP_PORT)
        connection.starttls()
        connection.login(YOUR_GMAIL_ADDRESS, APP_PASSWORD)
        connection.send_message(msg)
        connection.quit()
        print("メール送信成功")

    except Exception as e:
        print(f"メール送信失敗: {str(e)}")

# FPSを計算し推論を制御するためのグローバル変数
COUNTER, FPS = 0, 0
START_TIME = time.time()
is_inference_in_flight = False  # 推論中かどうかを制御するフラグ
latest_detection_result = None  # 最新の検出結果を格納する変数
last_detection_time = 0  # 最後にナイフを検出した時間
DETECTION_COOLDOWN = 60  # 再検出を抑制する時間（秒）
    
def run(model: str, max_results: int, score_threshold: float, 
        camera_id: int, width: int, height: int) -> None:
    """カメラから取得した映像に対して継続的に推論を実行します。

    引数:
        model: TFLite物体検出モデルの名前。
        max_results: 検出結果の最大数。
        score_threshold: 検出結果のスコア閾値。
        camera_id: OpenCVに渡すカメラID。
        width: カメラから取得するフレームの幅。
        height: カメラから取得するフレームの高さ。
    """
    global is_inference_in_flight, latest_detection_result, last_detection_time

    # カメラからの映像入力を開始
    cap = cv2.VideoCapture(camera_id)
    cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG'))
    cap.set(cv2.CAP_PROP_FRAME_WIDTH, width)
    cap.set(cv2.CAP_PROP_FRAME_HEIGHT, height)

    # 表示用パラメータ
    row_size = 50  # ピクセル
    left_margin = 24  # ピクセル
    text_color = (0, 0, 0)  # 黒
    font_size = 1
    font_thickness = 1
    fps_avg_frame_count = 10

    def save_result(result: vision.ObjectDetectorResult, unused_output_image: mp.Image, timestamp_ms: int):
        """推論が完了した際に呼び出されるコールバック関数。"""
        global is_inference_in_flight, latest_detection_result, COUNTER, START_TIME, FPS, last_detection_time

        # 推論が完了したことをマーク
        is_inference_in_flight = False

        # FPSを更新
        if COUNTER % fps_avg_frame_count == 0:
            current_time = time.time()
            FPS = fps_avg_frame_count / (current_time - START_TIME)
            START_TIME = current_time

        latest_detection_result = result
        COUNTER += 1
        

    # 物体検出モデルを初期化
    base_options = python.BaseOptions(model_asset_path=model)
    options = vision.ObjectDetectorOptions(
        base_options=base_options,
        running_mode=vision.RunningMode.LIVE_STREAM,
        max_results=max_results,
        score_threshold=score_threshold,
        result_callback=save_result
    )
    detector = vision.ObjectDetector.create_from_options(options)

    # カメラから継続的に映像を取得し推論を実行
    while cap.isOpened():
        success, image = cap.read()
        if not success:
            sys.exit(
                'エラー: ウェブカメラから映像を読み取れません。カメラ設定を確認してください。'
            )

        # TFLiteモデルが要求する形式に合わせて映像をBGRからRGBに変換
        rgb_image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=rgb_image)
        
        # FPS表示用に現在のフレームを保存
        current_frame = image.copy()        

        # 前回の推論が完了している場合のみ新しい推論を開始
        if not is_inference_in_flight:
            detector.detect_async(mp_image, time.time_ns() // 1_000_000)
            is_inference_in_flight = True

        # FPSを表示
        fps_text = 'FPS = {:.1f}'.format(FPS)
        text_location = (left_margin, row_size)
        current_frame = image
        cv2.putText(current_frame, fps_text, text_location, cv2.FONT_HERSHEY_DUPLEX,
                    font_size, text_color, font_thickness, cv2.LINE_AA)

        # 最新の検出結果がある場合は可視化
        if latest_detection_result is not None:
            current_frame = visualize(current_frame, latest_detection_result)
            
            # ナイフ検出のチェック（描画後のフレームに対して）
            current_time = time.time()
            if any("knife" in detection.categories[0].category_name.lower()
                   for detection in latest_detection_result.detections):
                if current_time - last_detection_time > DETECTION_COOLDOWN:
                    print("発見")
                    dt_now = datetime.datetime.now()
                    Discovery_time = dt_now.strftime('%Y年%m月%d日%H時%M分%S秒')
                    cv2.imwrite("image.jpg", current_frame)
                    
                    # Gmail送信
                    send_gmail(Discovery_time)
                    
                    last_detection_time = current_time
                else:
                    print("再検出（通知待機中）")            
                      
        cv2.imshow('object_detection', current_frame)

        # ESCキーが押されたらプログラムを終了
        if cv2.waitKey(1) == 27:
            break

    detector.close()
    cap.release()
    cv2.destroyAllWindows()

def main():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter)
    parser.add_argument(
        '--model',
        help='物体検出モデルのパス。',
        required=False,
        default='efficientdet.tflite')
    parser.add_argument(
        '--maxResults',
        help='検出結果の最大数。',
        required=False,
        default=5)
    parser.add_argument(
        '--scoreThreshold',
        help='検出結果のスコア閾値。',
        required=False,
        type=float,
        default=0.25)
    parser.add_argument(
        '--cameraId', help='カメラのID。', required=False, type=int, default=0)
    parser.add_argument(
        '--frameWidth',
        help='カメラから取得するフレームの幅。',
        required=False,
        type=int,
        default=800)
    parser.add_argument(
        '--frameHeight',
        help='カメラから取得するフレームの高さ。',
        required=False,
        type=int,
        default=600)
    args = parser.parse_args()

    run(args.model, int(args.maxResults),
        args.scoreThreshold, int(args.cameraId), args.frameWidth, args.frameHeight)


if __name__ == '__main__':
    main()

このプログラムでは、ナイフを検出した際に、カメラの映像を保存し、それを送信する機能を実装しています。ナイフが検出されると、現在のフレームが cv2.imwrite() を用いて detected_knife.jpg というファイル名で保存されます。この画像を send_line_notification_with_image() 関数を使用して、通知を送る仕組みになっています。

DETECTION_COOLDOWN = 60 はナイフを検出した後、次の通知を送るまで最低60秒の間隔を空けるための設定です。これにより、同じナイフが短時間で繰り返し検出された場合に、不要な通知が連続して送信されるのを防ぎます。

この方法を使えば、リアルタイムで物体検出を行い、特定の物体（今回の場合はナイフ）を検出した際に画像付きで通知するシステムを構築できます。不審な人物の検出や、特定のエリアへの侵入監視などにも活用が期待できます。

コメント一覧

夏は暑い 2022年8月7日

こんにちは。
２つほど質問です。
１．「Raspberry Pi Camera V2」ですが、Aサイトだと評価がいまいちのようです。
（梱包もそうですが、カメラが認識しないという評価）
当たりはずれがあるのでしょうか？
（値段は高くなりますが高評価の「Raspberry Pi Raspberry Pi NoIR Camera V2」はどう判断されますか？）
２．「カメラを有効にする」の項目でデスクトップの説明が出てきますが、デスクトップ自体はどうやって準備（ソフト※出来ればハードの説明も）されたのでしょうか（OSはLinux系？）？
宜しくお願い致します。

【ラズベリーパイ】監視カメラの作り方｜PythonでカメラモジュールV2を自在に操作

ラズベリーパイで使えるカメラ

コンパクトなカメラモジュール

カメラモジュールの種類

USB接続のカメラも使える

ラズベリーパイでカメラを使う準備をする

カメラモジュールの接続方法

カメラを有効にする（カメラモジュールの場合）

USBカメラの接続方法

ライブラリをインストールする

ラズベリーパイで監視カメラ【基礎編】

Pythonプログラムでカメラ映像（動画）を表示する

プログラムの解説

プログラムの保存

プログラムの実行

ピントの調整方法

スマホからカメラ映像を見る方法

ラズベリーパイで監視カメラ【応用編】

Pythonプログラムで静止画を保存する

ファイル名を時刻にして保存すると過去の画像も残る

Pythonプログラムで動画を保存する

人感センサーが反応したら撮影する

人感センサーの接続

人感センサーが反応したら静止画を保存するプログラム

人感センサーが反応したら動画を保存するプログラム

外出先からカメラの映像を確認する方法

人感センサーが反応したときのカメラ画像をGmailで送信する

PyhtonプログラムでGmailを送信する

アプリパスワードの取得

Gmail送信テスト

画像ファイルを添付してメールを送信

人感センサーが反応したときにGmailで通知する

顔認識の活用

リアルタイムで顔を検出する

顔認識と電子工作を組み合わせる

顔認識によりメール通知する

カメラ映像からリアルタイムで物体を検出

検出した物体を表示する

検出した物体をカウントする

刃物（ナイフ）を検出したときにGmailで通知する

コメント一覧

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル