add wip browser example

matiaslindgren · matiaslindgren · commit 789c5ceb0265 · 2020-11-30T21:34:14.000+02:00
diff --git a/web/package.json b/web/package.json
@@ -0,0 +1,30 @@
+{
+  "name": "online-lid",
+  "version": "0.1.0",
+  "description": "",
+  "main": "index.js",
+  "dependencies": {
+    "@tensorflow/tfjs": "^2.7.0",
+    "@tensorflow/tfjs-backend-wasm": "^2.7.0",
+    "clean-webpack-plugin": "^3.0.0",
+    "copy-webpack-plugin": "^6.3.2",
+    "css-loader": "^5.0.1",
+    "html-webpack-plugin": "^4.5.0",
+    "style-loader": "^2.0.0",
+    "webpack": "^5.8.0",
+    "webpack-cli": "^4.2.0",
+    "webpack-dev-server": "^3.11.0",
+    "webpack-hot-middleware": "^2.25.0"
+  },
+  "devDependencies": {
+    "ts-loader": "^8.0.11",
+    "typescript": "^4.1.2"
+  },
+  "scripts": {
+    "serve": "webpack serve",
+    "build": "webpack",
+    "tfjs-convert": "python3 ./src/feat.py ./static"
+  },
+  "author": "",
+  "license": "MIT"
+}
diff --git a/web/src/feat.py b/web/src/feat.py
@@ -0,0 +1,56 @@
+import argparse
+import os
+import tempfile
+
+import tensorflow as tf
+import tensorflowjs as tfjs
+
+from lidbox.features import audio, cmvn, feature_scaling
+
+
+@tf.function(input_signature=[
+    tf.TensorSpec([None, None, None], tf.float32),
+    tf.TensorSpec([], tf.int32),
+    tf.TensorSpec([], tf.int32)])
+def convertBrowserFFT(spec, sample_rate, num_mel_bins):
+    S = audio.db_to_power(spec)
+    # S = tf.math.abs(tf.signal.stft(signals, 400, 160, 512))
+    # S = audio.spectrograms(signals, sample_rate)
+    S = audio.linear_to_mel(S, sample_rate, num_mel_bins=num_mel_bins, fmax=tf.cast(sample_rate/2, tf.float32))
+    S = tf.math.log(1e-6 + S)
+    S = cmvn(S, axis=1)
+    return S
+
+@tf.function(input_signature=[
+    tf.TensorSpec([None, None], tf.float32),
+    tf.TensorSpec([], tf.int32),
+    tf.TensorSpec([], tf.int32)])
+def signals2logmel(signals, sample_rate, num_mel_bins):
+    signals, sample_rate = signals[:,::3], sample_rate // 3
+    flen = audio.ms_to_frames(sample_rate, 25)
+    fstep = audio.ms_to_frames(sample_rate, 10)
+    S = tf.math.square(tf.math.abs(tf.signal.stft(signals, flen, fstep, fft_length=512)))
+    # S = audio.spectrograms(signals, sample_rate)
+    S = audio.linear_to_mel(S, sample_rate, num_mel_bins=num_mel_bins, fmax=tf.cast(sample_rate, tf.float32))
+    S = tf.math.log(1e-6 + S)
+    S = cmvn(S, axis=1)
+    return S
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("out_dir")
+    out_dir = parser.parse_args().out_dir
+
+    export_list = [
+        ("spec2logmel", convertBrowserFFT),
+        ("signals2logmel", signals2logmel),
+    ]
+
+    for name, fn in export_list:
+        with tempfile.TemporaryDirectory() as tfmodel_path:
+            m = tf.Module()
+            m.__call__ = fn
+            tf.saved_model.save(m, tfmodel_path)
+            tfjs.converters.convert_tf_saved_model(
+                    tfmodel_path, os.path.join(out_dir, "tfjs", name))
diff --git a/web/src/index.ts b/web/src/index.ts
@@ -0,0 +1,185 @@
+import './style.css';
+import * as tf from '@tensorflow/tfjs';
+// require('@tensorflow/tfjs-backend-wasm');
+
+
+interface AppState {
+  TFBackend: string,
+  microphoneConfig: tf.data.MicrophoneConfig;
+  microphoneCaptureIntervalMs: number;
+  signalCanvas: HTMLCanvasElement;
+  // dBSpecCanvas: HTMLCanvasElement;
+  logMelSpecCanvas: HTMLCanvasElement;
+  predictionLabel: HTMLElement;
+  running: boolean;
+  renderIntervalID: number;
+  spec2logmel: tf.GraphModel;
+  signals2logmel: tf.GraphModel;
+  xvector: tf.LayersModel;
+  int2label: tf.Tensor1D;
+}
+
+
+export const state: AppState = {
+  TFBackend: "webgl",
+  microphoneConfig: {
+    fftSize: 1024,
+    numFramesPerSpectrogram: 198,
+    sampleRateHz: 44100,
+    includeSpectrogram: true,
+    includeWaveform: true,
+  },
+  microphoneCaptureIntervalMs: 200,
+  signalCanvas: null,
+  // dBSpecCanvas: null,
+  logMelSpecCanvas: null,
+  predictionLabel: null,
+  running: false,
+  renderIntervalID: 0,
+  spec2logmel: null,
+  signals2logmel: null,
+  xvector: null,
+  int2label: null,
+}
+
+
+function fatalError(error: Error): void {
+  console.error(error)
+  console.error("cannot recover from error")
+  stopApp()
+}
+
+export function stopApp(): void {
+  console.info("app stopping")
+  state.running = false
+  if (state.renderIntervalID > 0) {
+    window.clearInterval(state.renderIntervalID)
+    state.renderIntervalID = 0
+  }
+}
+
+
+function createElement(id, tag): HTMLElement {
+  const e: HTMLElement = document.createElement(tag)
+  e.id = id
+  document.body.appendChild(e)
+  return e
+}
+
+
+function spectrogramToCanvas(spec: tf.Tensor3D, canvas: HTMLCanvasElement): void {
+  // Scale all values between 0 and 1
+  const min: tf.Tensor3D = spec.min([0], true)
+  const max: tf.Tensor3D = spec.max([0], true)
+  let image: tf.Tensor3D = tf.divNoNan(spec.sub(min), max.sub(min))
+  image = image.transpose([1, 0, 2]).reverse(0) as tf.Tensor3D
+
+  // Render to canvas
+  tf.browser.toPixels(image, canvas).catch(fatalError)
+}
+
+
+let spec2logmelInput = {
+  spec: tf.zeros([1, 1, 1]),
+  sample_rate: tf.scalar(16000, "int32"),
+  num_mel_bins: tf.scalar(40, "int32"),
+}
+
+let signals2logmelInput = {
+  signals: tf.zeros([1, 1]),
+  sample_rate: tf.scalar(state.microphoneConfig.sampleRateHz, "int32"),
+  num_mel_bins: tf.scalar(40, "int32"),
+}
+
+function updatePredictionLabel(predictedIndexes: Int32Array): void {
+  const labels: string[] = Array.from(predictedIndexes, i => state.int2label[i])
+  state.predictionLabel.innerText = "prediction: " + labels.join(", ")
+}
+
+function handleMicrophoneInput(data: any): void {
+  if (!state.running) {
+    console.warn("app not running, ignoring microphone input data")
+    return
+  }
+  // tf.tidy(() => spectrogramToCanvas(data.spectrogram.clipByValue(-200, 0), state.dBSpecCanvas))
+
+  tf.tidy(() => {
+    spec2logmelInput.spec = data.spectrogram.transpose([2, 0, 1])
+    data.spectrogram.dispose()
+    const logmel = state.spec2logmel.execute(spec2logmelInput)
+    const imgInput = (logmel as tf.Tensor).clipByValue(-1, 1).transpose([1, 2, 0]) as tf.Tensor3D
+    spectrogramToCanvas(imgInput, state.logMelSpecCanvas)
+
+    const prediction: tf.Tensor1D = state.xvector.predict(logmel) as tf.Tensor1D
+    prediction.argMax(1).data().then(updatePredictionLabel)
+  })
+
+  // signal2logmelInput.signals = data.waveform.transpose([1, 0])
+  // data.waveform.dispose()
+
+  // state.signals2logmel.executeAsync(signal2logmelInput)
+  // .then(logmel => {
+  // 		tf.tidy(() => {
+  // 			const imgInput = (logmel as tf.Tensor).clipByValue(-1, 1).transpose([1, 2, 0]) as tf.Tensor3D
+  // 			spectrogramToCanvas(imgInput, state.logMelSpecCanvas)
+  // 			signal2logmelInput.signals.dispose();
+  // 			(logmel as tf.Tensor).dispose()
+  // 		})
+  // 	})
+  // .catch(fatalError)
+
+}
+
+
+function startListenLoop(mic: any): void {
+  state.renderIntervalID = window.setInterval(
+    () => {
+      mic.capture()
+      .then(micData => handleMicrophoneInput(micData))
+      .catch(fatalError)
+    },
+    state.microphoneCaptureIntervalMs)
+}
+
+
+async function main() {
+  // state.signalCanvas = createCanvas("signal-canvas")
+  // state.dBSpecCanvas = createCanvas("decibel-spectrogram-canvas")
+  state.logMelSpecCanvas = createElement("logscale-melspectrogram-canvas", "canvas") as HTMLCanvasElement
+  state.predictionLabel = createElement("prediction-label", "h2")
+
+  state.microphoneConfig.columnTruncateLength = Math.round(
+    (state.microphoneConfig.fftSize / 2 + 1)
+    / (state.microphoneConfig.sampleRateHz/16000))
+
+  await tf.setBackend(state.TFBackend)
+  console.log("initialized tensorflow.js backend:", tf.getBackend())
+
+  console.log("requesting access to an input device")
+  const mic = await tf.data.microphone(state.microphoneConfig)
+  console.log("got permission to use input device", (mic as any).stream.id)
+
+  const graph1 = await tf.loadGraphModel("./static/tfjs/spec2logmel/model.json")
+  console.log("tf graph1 loaded")
+  state.spec2logmel = graph1
+
+  // const graph2 = await tf.loadGraphModel("./static/tfjs/signals2logmel/model.json")
+  // console.log("tf graph2 loaded")
+  // state.signals2logmel = graph2
+
+  const graph3 = await tf.loadLayersModel("./static/tfjs/xvector_mv/model.json")
+  console.log("tf graph3 loaded")
+  state.xvector = graph3
+  state.xvector.summary()
+
+  const int2label = await tf.util.fetch("./static/tfjs/xvector_mv/int2label.json")
+  state.int2label = await int2label.json()
+
+  console.log("starting app")
+  state.running = true
+  startListenLoop(mic)
+
+}
+
+
+document.addEventListener("DOMContentLoaded", () => main().catch(fatalError))
diff --git a/web/src/layers.js b/web/src/layers.js
@@ -0,0 +1,34 @@
+import * as tf from '@tensorflow/tfjs';
+
+class GlobalMeanStddevPooling1D extends tf.layers.Layer {
+  static get className() {
+    return 'GlobalMeanStddevPooling1D';
+  }
+  constructor(config) {
+    super(config || {name: "stats_pooling"});
+  }
+  computeOutputShape(inputShape) {
+    return [inputShape[0], 2 * inputShape[2]];
+  }
+  call(inputs) {
+    const input = inputs[0];
+    const timeAxis = 1;
+    const mean = tf.mean(input, timeAxis);
+    const stddev = tf.sqrt(tf.mean(tf.square(tf.sub(input, mean)), timeAxis));
+    return tf.concat([mean, stddev], timeAxis);
+  }
+};
+tf.serialization.registerClass(GlobalMeanStddevPooling1D);
+
+class logSoftmaxV2 extends tf.layers.Layer {
+  static get className() {
+    return 'logSoftmaxV2';
+  }
+  constructor(config) {
+    super(config || {name: "log_softmax"});
+  }
+  call(logits) {
+    return tf.logSoftmax(logits);
+  }
+};
+tf.serialization.registerClass(logSoftmaxV2);
diff --git a/web/src/style.css b/web/src/style.css
@@ -0,0 +1,5 @@
+canvas {
+	width: 100%;
+	max-width: 800px;
+	max-height: 200px;
+}
diff --git a/web/tsconfig.json b/web/tsconfig.json
@@ -0,0 +1,7 @@
+{
+	"compilerOptions": {
+		"outDir": "./built",
+		"allowJs": true
+	},
+	"include": ["./src/**/*"]
+}
diff --git a/web/webpack.config.js b/web/webpack.config.js
@@ -0,0 +1,47 @@
+const path = require('path');
+const HtmlWebpackPlugin = require('html-webpack-plugin');
+const { CleanWebpackPlugin } = require('clean-webpack-plugin');
+const CopyPlugin = require("copy-webpack-plugin");
+
+module.exports = {
+  devtool: 'inline-source-map',
+  devServer: {
+    contentBase: './dist',
+    hot: true,
+  },
+  plugins: [
+    new CleanWebpackPlugin(),
+    new HtmlWebpackPlugin({
+      title: 'dev title',
+    }),
+    new CopyPlugin({
+      patterns: [
+        {from: "static", to: "static"},
+        {from: "node_modules/@tensorflow/tfjs-backend-wasm/wasm-out/tfjs-backend-wasm.wasm", to: "."},
+      ],
+    }),
+  ],
+  entry: ['./src/index.ts', '/src/layers.js'],
+  module: {
+    rules: [
+      {
+        test: /\.tsx?$/,
+        use: ['ts-loader'],
+        exclude: /node_modules/,
+      },
+      {
+        test: /\.css$/i,
+        use: ['style-loader', 'css-loader'],
+        exclude: /node_modules/,
+      },
+    ],
+  },
+  resolve: {
+    extensions: [ '.tsx', '.ts', '.js' ],
+  },
+  output: {
+    filename: '[name].bundle.js',
+    path: path.resolve(__dirname, 'dist'),
+  },
+};
+