针对无人直播的版权及内容风控,利用低成本开发板NPU算力(约3TOPS)实现实时检测与规避。通过Yolov5视觉分析监测黄暴内容、人脸及商品,结合音频处理技术(如RNNoise降噪、频段调整)降低音乐版权识别风险,避免平台处罚。同时借助语音转录与NLP分析存档直播内容,适配TikTok/YouTube等平台,为数字游民提供低成本自动化解决方案。
边缘计算
算力时代,各种贵金属原料和商业数码都在疯狂涨价,因为AI是超级杠杆,是技术奇点
本篇核心阐述npu在无人直播的应用 (不是GPU显卡)
两百多人民币的开发板,就有3TOPS的算力
可以解决无人直播中2个核心风控问题
• 推荐机制/黄色暴力 • 音频版权
常在河边走,哪有不湿鞋,见下图
无人直播,真的是就内容"无人"吗,显然不是,说的是无人值守
由于是几十个直播间,轮询开播状态,然后实时转播
就不可避免会遇到各种场景,有的主播会突然进行pk状态,有的会偶尔用音响放音乐
这就会导致Youtube根据声纹,识别到音乐版权,进行警告
多次触发后,就会进行判罚
• 第1次,禁止该频道7天不能发布,频道降权 • 第2次,禁止该频道14天不能发布,频道降权 • 第3次,名下所有频道封禁,撤销Ypp获利资格
所以,如果达到第3次封禁,那损失不可估量,于是就必须采取以下解决措施
机器视觉Yolov5
廉价的开发板,除了CPU,还有3tops的NPU,物尽其用
虽然它不能进行AIGC创造内容,但是可以检测内容
比如,开播时
• 对主播进行 人脸识别,商品是被• 每十分钟对画面进行 黄暴检测• 同时在线人数达到100时,对画面进行分析
检测的目的,是为了研究平台的推荐机制和风控处理
其实目前黄暴对于转播意义不大,因为国内平台天然有过滤
但是有些场景会用得到
音频声纹
背景音乐,一旦检测到版权,进行封禁的后果是非常可怕的
所以在ffmpeg的实时流,就要对音频重新处理
比如RNNoise降噪,人生增强,音速变化,音色调整
ps: RNNoise降噪,需要下载cb.rnn模型文件
虽然不能百分百避免音乐版权检测,但是降低概率很重要
"-af",
"arnndn=m=./arnndn-models/cb.rnnn:mix=0.88," # 人声增强
"afftdn=nf=-24:tn=1," # FFT 降噪,抹平音乐中频
"highpass=f=110,lowpass=f=4800," # 切掉低音鼓/高频镲
"equalizer=f=250:width_type=o:width=2:g=-9," # 衰减低中频,音乐基础弱化
"equalizer=f=800:width_type=o:width=1.5:g=-6," # 再衰减中频,人声外区域
"atempo=1.03," # 轻微加速 3%,节奏轻微错位
"asetrate=48000*1.02,aresample=48000," # 音高上移 ~1/2 半音
"afreqshift=shift=20," # 整体频率偏移 20Hz,破坏指纹
"acompressor=threshold=-28dB:ratio=5:attack=8:release=80:makeup=5," # 压缩动态,音乐更"扁"
"volume=1.15," # 补偿整体音量
"aresample=async=1:first_pts=0" # 保证音视频同步语音转录和文字识别
deepspeech2 和ocr
除了对画面的分析,也可以对音频实时识别,以及文字识别
然后进行自然语言NLP分析,和转义
简单来说,就是不可能一直盯着频道,而转成文字分析后,就能得到内容纪要
可以对直播的内容进行存档
最后
现在端侧的嵌入式设备和可穿戴设备,边缘算力都很强大了
最明显的趋势,就是AI glass(智能眼镜)
既可以实时直播,拍摄视频,也能语音对话/转录,妥妥的生产力工具
一键三连: 关注/点赞/推荐
没有评论:
发表评论