Efeito do tom de voz e da perceção do rosto na formação de impressões nos locutores dos meios de comunicação

A pesquisa relatada avalia o efeito que a voz e o rosto dos locutores têm, perguntando como ambos os tipos de sinais estão relacionados na formação das impressões do público: há diferenças em nossas opiniões sobre um falante quando apenas o ouvimos (como no rádio) ou quando também o vemos (como na televisão)? Esta é a pergunta que a pesquisa aqui apresentada foi projetada para responder.

Efeito do tom de voz e da perceção do rosto na formação de impressões nos locutores dos meios de comunicação

Artigo em Comunicação e Sociedade (México) ■ Dezembro de 2008

Maria T. Soto-Sanfiel

Universitat Autònoma de Barcelona / Universidade Autónoma de Barcelona

Tradução e adaptação

Rui de Melo

Doctor en Periodismo y Ciencias de la Información na Universidad Pontificia de Salamanca

e licenciado em Direito pela Universidade Católica do Porto

Observou-se o efeito da frequência fundamental das vozes (o tom) e da perceção do rosto nas impressões em locutores dos meios de comunicação. O objetivo era verificar se havia relação entre a informação visual e uma característica eminentemente acústica: o tom. 320 sujeitos foram submetidos a uma de duas condições: som (eles perceberam apenas vozes) ou audiovisual (eles viram rostos). Em seguida, responderam por meio de escalas diferenciais à pergunta: Como lhe pareceu o falante? Os resultados mostram que o tom influencia as impressões, que a perceção do rosto mostra as diferenças no julgamento das vozes alta, média ou baixa, e que a credibilidade norteia as avaliações.

1 Universidade Autónoma de Barcelona.

Email: Mariateresa.soto@uab.es

New Era, n. 10, julho-dezembro de 2008, pp. 129-16i. ISSN 0i88-252x

Introdução

O objetivo geral deste trabalho é contribuir para a obtenção de conhecimentos sobre os processos de formação de impressões em contextos de comunicação de massa e avançar no estudo sobre a repressão de pessoas que falam através dos meios eletrónicos. Mais especificamente, embora ainda de forma ampla, este trabalho visa obter conhecimento sobre o efeito que, na formação das impressões dos destinatários sobre os locutores dos meios de comunicação, a disponibilidade de determinados canais de comunicação não-verbal - a voz ou o rosto - dos locutores (como acontece no rádio ou na televisão). Nesse sentido, é verdade que existem inúmeros estudos na área da comunicação interpessoal que afirmam que tanto as expressões faciais quanto o tom de voz são instrumentos altamente informativos e enormemente poderosos para a comunicação de estados, atitudes ou sentimentos internos (De Paulo e Friedman, 1998: 3-39) e que, de fato, podem informar os recebedores das habilidades e personalidade dos outros (Ambady, Bernieri e Richeson, 2000: 201-271). No entanto, faltam estudos que explorem esses fenómenos na comunicação mediada.

Agora, especificamente, este texto visa dar um relato detalhado de uma investigação experimental destinada a estudar o efeito da modalidade de perceção (e com ela da disponibilidade de pistas visuais e sonoras) na formação de impressões em locutores de meios de comunicação (aqueles que falam connosco - seja através do rádio ou da televisão - para transmitir mensagens complexas, como uma notícia ou um monólogo ficcional). A pesquisa relatada avalia o efeito que a voz e o rosto dos locutores têm, perguntando como ambos os tipos de sinais estão relacionados na formação das impressões do público: há diferenças em nossas opiniões sobre um falante quando apenas o ouvimos (como no rádio) ou quando também o vemos (como na televisão)? Esta é a pergunta que a pesquisa aqui apresentada foi projetada para responder.

Da mesma forma, além de explorar se há efeito da perceção do rosto - e, portanto, da modalidade de perceção - na formação das impressões sobre os falantes, o desenho experimental aplicado buscou aprofundar numa propriedade particular das vozes. De fato, buscou-se determinar se na perceção dos falantes havia relação entre a informação visual do rosto que produzia a fala e uma característica eminentemente acústica da interpretação: o tom ou frequência fundamental da voz. Então, este texto oferece os resultados de uma experiência que pesou dois tipos de sinais não verbais que ocorrem simultaneamente durante a perceção e produção da fala (visual e sonora): há um efeito diferente na influência que a perceção tem sobre o rosto dependendo se os falantes têm tons de voz baixos, médios ou altos? A perceção do rosto afeta o julgamento da personalidade de vozes com tons diferentes de forma diferente ou da mesma maneira? Qual radialista seria mais influenciado por sua aparição na televisão: o de voz alta ou média ou o de voz grave? A maneira como essas questões específicas foram formuladas é descrita a seguir. No entanto, antes de continuar, vamos explicar a estrutura deste texto.

Observamos, em princípio, que este trabalho é o relato de um trabalho que aplica o método experimental, que é aquele que permite estabelecer relações causais entre diferentes variáveis. Ao aplicar este método, são produzidas situações de laboratório artificiais para provar a existência de um efeito de uma (ou mais) variáveis independentes (causas) sobre outras variáveis dependentes (efeito). O relato dos resultados de um experimento implica dar um relato completo do método para favorecer sua replicabilidade, ou seja, para que qualquer outro pesquisador possa repetir o trabalho e chegar a conclusões semelhantes. O leitor, então, encontrará as informações essenciais de cada etapa do desenvolvimento.

Além desta introdução, o artigo está organizado em cinco partes. A primeira oferece as evidências sobre as quais se apoia a formulação das hipóteses de pesquisa (que, por sua vez, são incluídas quando as informações teóricas que as justificam já foram apresentadas). Na segunda parte, o método é exposto. Explica o desenho experimental, os materiais usados nos testes de perceção e as variáveis dependentes (aquelas medidas pelos sujeitos) que foram aplicadas. A terceira parte relata os testes e os procedimentos seguidos para a análise estatística dos dados obtidos nos testes de perceção. A seguir, os resultados obtidos são expostos. Finalmente, na quinta parte, são apresentadas as conclusões relevantes.

O autor agradece aos Drs. Emili Prado, José Reinaldo Martínez e José Ignacio Latorre pela colaboração nas diferentes fases do estudo.

Formação de impressão: fatos básicos

Os processos pelos quais os seres humanos combinam as informações à nossa disposição para gerar opiniões globais sobre outros indivíduos são conhecidos como formação de impressões. Grosso modo, a literatura define a formação de impressões como as tentativas que fazemos para fazer com que os dados que obtemos sobre outras pessoas se encaixem em categorias que adquirimos antecipadamente (Fiske e Neuberg, 1990: 1-73). É geralmente aceito que os humanos desenvolveram esses outros mecanismos de categorização para compensar nossa capacidade limitada de processar novas informações (Abele e Petzold, 1998: 347-358).

O processamento - a formação de impressões - começa quando espontaneamente, mesmo sem perceber, associamos traços de personalidade do indivíduo que percebemos com características acumuladas em nossa cognição (Newman e Uleman, 1990: 224-240; Uleman e Newman, 1992: 77 -90). O processo envolve lidar com enormes pacotes de informações sobre o que é observado, porque extraímos características detalhadas do comportamento, ou aparência, do outro e as relacionamos ativamente para dar-lhes significado. Dada a grande quantidade de dados que usamos na categorização, tendemos a fazer avaliações que nos ajudam a explicar quem contemplamos. Na verdade, eles são muito difíceis de mudar (Fiske e Taylor, 1991). Os pesquisadores do social estudam profusamente os fenómenos relacionados com a formação de impressões, uma vez que, por sua presença constante, explicam, em parte, a dinâmica da interação social.

No entanto, a formação de impressões tem sido estudada, preferencialmente, em contextos de comunicação face a face e o conhecimento acumulado sobre o assunto é aplicado, muito frequentemente na literatura académica, à explicação de fenómenos ocorridos em áreas da mediação da comunicação. Assim, por vezes, parte-se do pressuposto de que a formação de impressões sobre atores, profissionais da representação, aqueles que se dirigem ao público, por meio do rádio ou da televisão para transmitir mensagens complexas, pode ser explicada de forma satisfatória aplicando sem discriminação os conhecimentos obtidos sobre o processo de formação de impressões na comunicação interpessoal. No entanto, há evidências a favor da existência de diferenças entre os processos de ambos os contextos comunicativos (Jacobson, 1999; Walther, 1993: 381-389, 1996: 3-43). Parece que, conforme afirma Walter (1993), as diferenças nas avaliações dos indivíduos, de acordo com a modalidade em que são percebidos, se devem ao fato de que a mediação tende a inibir o efeito das pistas não verbais, no processar o outro, e isso obviamente produz resultados percetuais diferentes daqueles da interação personalizada. Apesar dessas evidências, e apesar de a comunicação mediada ser parte fundamental da vida dos cidadãos das sociedades atuais, o estudo da formação das impressões, nesses contextos, exige maior atenção (Sherman et al, 2001: 123-129; Collins Tidwell e Walter, 2002: 317-348; Weisband, Schneider e Connoly, 1995: 1124-1151). Em particular, há menos estudos que exploram esses processos no campo específico dos meios de comunicação audiovisual (por exemplo, rádio ou televisão).

A voz como fonte de informação sobre o locutor

Que a voz afeta os processos de formação de impressões é algo amplamente reconhecido pelos pesquisadores da comunicação interpessoal, embora existam menos trabalhos que explorem as propriedades da voz no julgamento da personalidade dos locutores dos meios de comunicação. Aproximando-nos do nosso contexto, o da comunicação eletrónica massificada, encontramos o trabalho de Zuckerman e Miyake (1993) que destaca a importância do estudo da atratividade vocal na comunicação e também justifica grande parte do presente estudo.

Esses pesquisadores, primeiro, provaram que os julgamentos sobre a personalidade dos falantes - a formação de impressões - estavam relacionados com a perceção de atratividade das vozes. De acordo com os resultados do trabalho, a magnitude do efeito da variável "atratividade vocal" nos julgamentos sobre personalidade foi realmente considerável. Apesar disso, como demonstraram, os recetores não tinham consciência de que percebiam a atratividade nas vozes e que, espontaneamente, utilizavam essas informações para avaliar a personalidade do outro.

Além de sugerir a grande importância de uma voz atraente na comunicação e na formação de impressões, o trabalho de Zuckerman e Miyake também mostrou que nós, humanos, associamos vozes atraentes a impressões mais positivas da personalidade geral do falante; a perceção de vozes atrativas estimulou nosso desejo de ajustamento, aumentou o índice de semelhança que assumimos em relação ao locutor e, além disso, nos permitiu perceber quem falava como tendo um status semelhante ao nosso.

Zuckerman e Miyake, no entanto, foram um pouco além e provaram, também, que havia uma relação entre atratividade vocal e medidas objetivamente obtidas, como frequência fundamental, amplitude e duração da fala. Especificamente, o estudo encontrou uma relação entre tom de voz e atratividade percebida. Vozes com frequências fundamentais mais baixas foram consideradas mais atraentes. Na verdade, os recetores associavam tons baixos a traços de personalidade mais favoráveis.

Esta última evidência foi confirmada por um trabalho posterior. Em 2000, Collins também explorou a relação entre frequência fundamental e apelo vocal e descobriu que, de acordo com Zuckerman e Miyake, vozes masculinas com frequências mais baixas eram consideradas mais atraentes pelos recetores. Collins, por outro lado, investigou os aspetos físicos que eram percebidos pelas vozes. Falaremos sobre isso a seguir.

A pesquisadora comprovou que os recetores deduziram características do físico dos falantes a partir da perceção de suas vozes e que isso acontecia mesmo quando os rostos não eram vistos. Além disso, relatou que o grau de concordância na atribuição de atratividade física aos palestrantes foi muito alto entre os destinatários. Indo mais fundo, ele descobriu que o peso dos falantes era uma das características inferidas com mais precisão a partir de dados objetivos (por exemplo, a frequência fundamental), enquanto outros atributos (por exemplo, a idade, peso ou altura do falante) não eram inferidos de maneira tao coincidente entre as tentativas.

Nesse ponto, deve-se lembrar que, além das pesquisas de Zuckerman e Miyake, ou de Collins, outros estudos sobre formação de impressões relacionam o tom da voz a fatores da personalidade do falante, como a maturidade (Montepare e Zebrowitz- McCarthur, 1989: 189-203), idade (Caruso, Mueller e Shadden, 1995: 63-80), benevolência (Riding, Lonsdale, Brown, 2006), sensibilidade não verbal (Bond et al, 1987: 335-380) ou com índices de estresse, emoções positivas, instabilidade emocional e / ou tensão psicológica (por exemplo, Apple, Streeter e Krauss, 1979; Fairbanks, 1940; Fairbanks e Pronovost, 1939; Laukka, Juslin e Bresin, 2005; Scherer, 1979: 147- 209 e 1978).

Junto com as evidências fornecidas, há uma obra que é uma referência imediata do presente, pois explora a formação das impressões a partir da voz num ambiente comunicativo radiofónico. O estudo a que nos referiremos a seguir, além de próximo devido à sua orientação mediática, é próximo geográfica e idiomaticamente geograficamente e de linguagem ao contexto do experimento relatado neste artigo. Observe, também, que é anterior a Zuckerman, Miyake e Collins.

Inicialmente, Rodríguez (1989) dividiu as características das vozes que transmitem informações sobre as imagens dos transmissores em quatro níveis, de acordo com o tipo de informação transmitida: “ideográfica” (relativa ao aspeto físico dos transmissores), “característico ou afetivo” (relacionado com o caráter ou atitude emocional), “enquadrado” (vinculado ao meio social) e “sintomático” (que se refere a distúrbios físicos ou psicológicos). Seu estudo experimental focou os elementos sonoros ligados à aparência física e ao caráter ou atitude das vozes do rádio.

O pesquisador descobriu que, de fato, o público era capaz de formar uma imagem física e psicológica dos falantes com um grau de coincidência maior do que o definido pelo acaso (o que é consistente com a evidência que Collins forneceu posteriormente). Além disso, ele relatou que aquelas imagens formadas na mente das plateias coincidiam com a imagem real dos locutores.

Rodríguez investigou um pouco mais fundo e descobriu que a perceção de prazer nas vozes era o fator mais influente na determinação da “radiogenicidade”; que uma voz radiogénica (ideal para o rádio) era percebida como agradável. Além disso, ele descobriu que gostar estava associado à perceção de atratividade do falante. Segundo Rodríguez, vozes agradáveis criaram sistematicamente uma imagem atraente e bela na mente do ouvinte. Apesar de tudo isso, o estudo não conseguiu encontrar características físicas específicas que pudessem estar associadas à chamada radiogénese.

Numa terceira fase, por fim, realizada por meio de análise espectral, a pesquisadora encontrou uma relação entre a inteligência percebida nas caixas de som e o tom de voz (a frequência das vozes). De acordo com os resultados fornecidos, uma voz percebida como inteligente tinha ressonâncias agudas, mas manteve sua intensidade geral concentrando suas poucas diminuições apenas em certos formantes do espectro (F0 e F3). Parecia, portanto, que o tom estava relacionado com a atratividade percebida e a algum fator que explicava a radiogenicidade dos falantes do rádio.

Todos os trabalhos citados sustentam que, conforme categorizou Scherer (1979), os seres humanos obtêm dois tipos de informação a partir da fala. Por um lado, adquirimos dados sobre aspetos do conteúdo (por exemplo, palavras ou frases) e, por outro, sobre as qualidades funcionais da voz, ou seja, sobre os parâmetros acústicos (por exemplo, altura, timbre, velocidade da fala e intensidade). O trabalho relatado neste artigo concentra-se especificamente na exploração do efeito de uma variável - a perceção do rosto do falante - numa qualidade funcional específica da fala: o tom ou frequência fundamental, e, portanto, explora parte do segundo tipo de informação categorizada por Scherer. Porém, como uma etapa preliminar, este trabalho também observa o reconhecimento das audiências aos locutores, de acordo com o tom de sua voz (alta, média e grave), independentemente de verem ou não seu rosto (da modalidade de perceção). O objetivo desta primeira análise, como se pode deduzir, é verificar, como alerta a literatura, se há efeito da frequência fundamental das vozes dos locutores dos meios de comunicação na formação das impressões de seus públicos, a partir das seguintes hipóteses:

H1: A frequência fundamental das vozes dos locutores influencia a formação de impressões sobre os locutores.

Ora, percebemos que este trabalho também teve como objetivo observar o efeito da perceção do rosto na formação de impressões de acordo com a frequência fundamental da voz dos locutores. Portanto, antes de continuar, é prudente justificar por que acreditamos que poderia haver uma relação na avaliação dos recetores e as variáveis fundamentais de perceção frequência-face. Ou seja, para defender porque se acredita, na pesquisa relatada, que a perceção do rosto influencia de forma diferente dependendo se é processado um falante com voz alta, média ou grave.

Sobre a influência da perceção do rosto na ajuizamento (discurso audiovisual)

Para formular hipóteses sobre a relação entre voz e rosto na formação de impressões, o conhecimento atual sobre a perceção da fala bimodal deve primeiro ser levado em consideração. Esses testes, vindos da psicoacústica, e observados à luz da comunicação mediática, permitem afirmar que há diferenças entre ouvir um locutor no rádio ou na televisão, já a partir do mesmo processamento percetual dos sinais que o recetor recebe.

Assim, estudos sobre a perceção da fala audiovisual mostram que os seres humanos integram percetivamente os sinais sonoros e visuais dos eventos da fala e que tal integração produz um resultado percetivo diferente daquele produzido pelo processamento de cada canal separadamente. A demonstração da integração bimodal da fala é conhecida como “efeito McGurk ou ilusão” (MacDonald e McGurk, 1978: 253-257), e confirma que num nível de processamento ainda desconhecido ocorre uma sinergia, uma interação da informação fornecido em ambos os canais. O fenómeno prova que se a sílaba auditiva ba for mostrada ao lado de um vídeo do locutor dizendo a sílaba ga, os recetores percebem a sílaba da; uma sílaba nova e inexistente nas modalidades sonora e visual separadamente. A perceção dos movimentos articulatórios do falante, portanto, modifica significativamente a experiência percetiva de escuta.

A demonstração da existência do efeito McGurk despertou o interesse em estudar as propriedades do processo percetual da fala bimodal. Portanto, foi demonstrado que o resultado percetual da fala audiovisual é uma unidade de crença sólida formada pela combinação dos canais auditivos e visuais que resiste à identificação fragmentada de seus componentes parciais (Massaro e Cohen, 1983: 753-771; Summerfield, 1987: 3-51); que os recetores extraiam e utilizem os dados que cada canal fornece, pois obtêm informações diferentes de cada canal (Massaro e Cohen, 1983); que a integração percetiva é o resultado de um processo em que os destinatários avaliam a informação, dão graus de apoio às opções e tomam uma decisão; que os recetores usam as fontes de informação auditiva e visual para diferentes propósitos e que o processo produz o "realce" de um dos dois canais, ao invés de uma solução intermediária (Summerfield, 1987). Finalmente, também foi comprovado que, no processamento bimodal da fala, o sinal audível parece ser mais influente do que o sinal visível (Massaro e Cohen, 1996: 753-771).

No entanto, o trabalho descrito por Strand (1998) é adicionado às evidências anteriores. Os resultados relatados por este pesquisador dizem que a perceção audiovisual do locutor supõe, sim, a integração da informação visual com a informação sonora, mas que envolve também o acesso às expectativas (estereótipos) dos recetores sobre como a fala deve soar em função da aparência dos falantes. As evidências que obteve em seu trabalho com E. Johnson mostram, segundo Strand, que os recetores tendem a perceber os limites fonológicos nas frequências mais baixas do espectro se forem acompanhados por um rosto de homem e em maior se o rosto for de mulher. Ou seja, o tom da voz é percebido mais baixo se o rosto que a acompanhou for masculino e mais alto se for feminino. Por esse motivo, e principalmente em relação ao trabalho aqui apresentado, o estudo de Strand mostra que expectativas sociais complexas influenciam a forma como se categoriza o sinal sonoro da fala audiovisual.

Outros estudos, numa linha semelhante (Niedzielski, 1999: 62-85; Daly e Bench, 1996: 468-480; Wyer et al, 1994: 254-267), confirmam que, na perceção da fala audiovisual, os humanos usam tanto a informação social como a visual para calibrar ou criar o espaço fonológico dos falantes. Especificamente, Wyer et al. provaram que as pistas visuais convidavam os recetores a fazer inferências gerais, a pensar sobre características - estereotípicas globais, em vez de atributos específicos individuais nos processos de formação de impressão da fala bimodal. Segundo esses pesquisadores, as pistas visuais estavam relacionadas com comportamentos estereotipados esperados pelo ouvinte no falante, dependendo do contexto comunicativo, e este, por sua vez, afetava a formação das impressões. Por outro lado, o trabalho de Daly e Bench indica que a disponibilização da informação visível da fala (movimentos articulatórios) afeta o julgamento do locutor, pois os recetores recorrem à informação visual para dar peso a um elemento que não possui signo. É significativo no ajuizamento pela voz, mas é significativo pela perceção do rosto. Os pesquisadores descobriram que os participantes de seu experimento fizeram julgamentos semelhantes depois de ver a fala (sem áudio) e depois de ouvi-la. Em ambas as situações experimentais, as variáveis status (educado, confiável e competente), em primeiro lugar, e solidariedade (agradável, amigável, atraente e confiável), no segundo, apareceram relacionadas com os julgamentos. Porém, apenas com a perceção da linguagem visual um terceiro fator - desempenho (expressividade, natural, relaxado) - apareceu no conjunto, que afetou estatisticamente a formação das impressões. Juntos, os três fatores explicaram 65% da variância. Por si só, o status explicava 42%, a solidariedade 14% e o desempenho 8%. Portanto, também, Daly e Bench concluíram que, na formação das impressões, a informação sonora teve um peso maior no julgamento dos oradores do que a informação visual.

A evidência fornecida leva a pensar que a informação visual obtida durante o processamento bimodal funcional e pragmaticamente orientada pelos recetores, para a formação de impressões, e que o sinal audível parece ser mais influente do que aquele visível no julgamento dos falantes. No entanto, e apesar disso, sabe-se que os indivíduos valorizam positivamente a disponibilidade de mais informações sobre as pessoas que processamos porque aumenta a nossa confiança no ajuizamento. Parece também que tal confiança não tende, de forma alguma, a aumentar a precisão de nossos julgamentos (Dunning et al., 1990: 568-581).

Por fim, deve-se destacar que, como já foi dito, desconhecemos a existência de estudos que explorem a formação das impressões à luz dos meios de comunicação social e das teorias que os explicam. No entanto, temos a "teoria da riqueza de meios de comunicação" que explica (e categoriza) os modelos de processamento de informações. A teoria acredita que o sucesso em atingir os objetivos das organizações reside, em grande medida, na maior ou menor disponibilidade de informações que fornecem aos seus públicos, principalmente na quantidade de chaves visuais que oferecem (Daft e Lengel, 1984: 191-233). A teoria postula que meios de comunicação mais ricos facilitam a redução de imprecisões porque permitem o compartilhamento de significados (Trevino, Lengel e Daft, 1987: 553-575). Aplicada aos meios de comunicação, essa teoria permite supor, por exemplo, que a televisão, ao contrário da rádio, poderia favorecer a homogeneidade na formação das impressões das audiências por oferecer mais informações (pistas visuais) sobre os fenómenos.

Por tudo isso, este estudo, por fim, também levanta a hipótese de que H2: a perceção audiovisual da face do falante afetará as avaliações dos sujeitos de forma diferente dependendo da frequência fundamental das vozes dos falantes.

Método

Design experimental

Participaram 320 alunos de ambos os sexos, de uma faculdade espanhola, com média de idade de 21,03 anos (DP = 2.178).

Os sujeitos foram aleatória e igualmente designados a uma de duas condições experimentais: som ou audiovisual. O corpus foi o mesmo para as duas condições, de forma que as variações no julgamento se deviam apenas à modalidade de perceção. Na condição de som, os sujeitos ouviram as vozes; no audiovisual, além de ouvi-los, viram as imagens dos locutores enquanto falavam. Todos os testes foram feitos na mesma sala de aula.

Os materiais foram veiculados numa televisão de tela de 24 polegadas. Nos testes de som, a tela parecia vazia porque os níveis de brilho e contraste do dispositivo foram completamente reduzidos; em audiovisuais, os parâmetros voltaram aos níveis normais. Assim, uma das principais condições da situação experimental foi assegurada: que os níveis acústicos de perceção das vozes dos locutores fossem exatamente os mesmos em todos os testes e condições.

Os sujeitos foram informados de que o objetivo do estudo era avaliar emissoras de meios de comunicação. A identificação dos investigadores que aplicaram as provas como pertencentes à Faculdade de Comunicação Audiovisual, e a etiqueta "locutores" com a qual, em todas as instruções da experiência, foram identificados os locutores, procurou-se circunscrever a experimentação ao contexto de comunicação audiovisual. Existem pesquisas que certificam que os recetores são suscetíveis às instruções que recebem em experimentos, a ponto de essa suscetibilidade influenciar a seleção de fatores que lhes permitem formar impressões e categorizar os comportamentos que percebem. Na verdade, os sujeitos experimentais são capazes de usar os rótulos com os quais os estímulos são apresentados, de forma dinâmica e orientada para a interpretação dos comportamentos que observam, mesmo os ambíguos (Higgins, Rholes e Jones, 1977: 141-154).

A pesquisadora informou os sujeitos que eles perceberiam a atuação de oito palestrantes e que cada atuação duraria cerca de um minuto. Também que, após o recebimento de cada locutor, a transmissão seria interrompida para que respondessem ao questionário que continha escalas do diferencial semântico, precedidas da pergunta: "Que lhe pareceu o locutor?"

Materiais

Dois textos foram elaborados para serem interpretados pelos locutores. Concordou-se que eram diferentes para neutralizar o efeito do conteúdo nas impressões e provocar uma escuta variada. Da mesma forma, ficou combinado que cada texto duraria um minuto. Por outro lado, decidiu-se que o tema destes deveria ser inócuo para evitar reações negativas que pudessem afetar a credibilidade dos locutores. Um dos textos era uma notícia e o outro uma história.

Foi solicitada a colaboração de oito locutores femininos e oito masculinos, os quais foram escolhidos levando-se em consideração que possuíam tons de voz altos, médios e baixos, além de uma fala com vocalização clara e inteligível. Os locutores não eram conhecidos nem populares.

Os materiais foram gravados em vídeo, em estúdio de rádio que teve condições de garantir a qualidade audiovisual profissional dos materiais. A câmara foi colocada na sala de controle do estúdio e captou os locutores, que estavam no estande, pelas janelas da sala. Apenas a luz artificial do estúdio foi usada, porque era suficiente para captar adequadamente a face inteira dos falantes.

A câmara captou um close-up frontal médio dos locutores, permitindo que seus rostos e interpretações visuais completas fossem vistos. Como a frequência fundamental foi uma variável observada, nenhum dos parâmetros acústicos foi manipulado ou equalizado. Uma intensidade média de captação das vozes foi determinada com antecedência, que permaneceu padrão em todas as gravações.

Estes foram confecionados com um microfone profissional (MILAB Sweeden VIP-50), conectado a um mixer de som profissional (TASCAM M-3500) que, por sua vez, foi conectado a uma câmara de vídeo (SONY DXC-327P). Este tinha lentes óticas profissionais (FUJINON 1: 1,4 / 7,5¬90 mm) e gravador (EVV-9000P)

Os locutores foram informados de que a pesquisa teve como objetivo estudar os fatores acústicos das vozes e que elas seriam filmadas para que pudessem ver seus rostos durante a produção da fala. Além disso, eles deveriam interpretar dois textos diferentes, cada um com cerca de um minuto, e que eram livres para escolher o modo de representação de cada texto. Anteriormente, os textos eram impressos num póster em tamanho carta que permitia a fácil leitura do local do microfone e os textos eram colocados numa parede da cabine, como um telemprompter. Os pesquisadores levaram em consideração que sua leitura não fez com que o olhar do locutor caísse.

Os locutores puderam ensaiar os textos pelo tempo que consideraram necessário. Foram informados de que sua atuação não poderia conter erros, dúvidas, silêncios injustificados ou palavras quebradas e que se errassem na elocução poderiam repeti-la. O ensaio dos palestrantes é justificado pela existência de evidências suficientes a favor de uma relação entre fala fluente, dúvidas, repetições ou frases interrompidas e as avaliações dos recetores (Barge, Schlueter e Pritchard, 1989; Burgoon, 1978; Burgoon, Birk e Pfau, 1990; Ericsson, Lind, Jonson e O'Barr, 1978; McCroskey e Mehrley, 1969; Miller e Hewegill, 1964; Ostermeier, 1967; Scherer, London e Wolf, 1973; Sereno e Hawkings, 1967).

Feitas as gravações, foi obtida a frequência fundamental média de cada voz com o auxílio do programa Mac Speech Lab, que permite a medição espectral de formas eletroacústicas. Foi calculada uma média geral da frequência fundamental das vozes que participaram do experimento, por sexo, para criar as propriedades da variável: alta, média e baixa. Para falantes do sexo feminino, foi estabelecido que a alta frequência compreenderia vozes entre 189-225 Hz; a média teria vozes entre 152-188 Hz e o grave acomodaria vozes entre 115-151 Hz. Para falantes do sexo masculino, foi determinado que o agudo se referiria a vozes entre 152-178 Hz; a média para as vozes entre 126-151 Hz e a baixa para as vozes entre 98-125 Hz.

Dos locutores que participaram das gravações, os pesquisadores selecionaram 16 que fariam parte do corpus experimental com os seguintes critérios: diferentes frequências fundamentais das vozes de cada sexo e interpretação acústica e visual variada sem erros (no comportamento verbal e visual) também foi considerado que seu desempenho visual não parecia nervoso. Os selecionados foram dois falantes de cada sexo com frequências altas, quatro falantes de cada sexo com frequências médias e dois de cada sexo com frequências baixas.

A pós-produção do “corpus experimental”, a edição das sequências de visualização, foi feita tendo em conta que todos os locutores poderiam ser processados durante a interpretação dos dois tipos de textos. Um exercício combinatório permitiu a criação de oito grupos de perceção, levando em consideração que os falantes apareceram apenas uma vez em cada grupo, interpretando apenas um texto. Da mesma forma, a distribuição dos falantes nos grupos de perceção garantiu que não houvesse diferenças muito percetíveis nas frequências das vozes. Para atenuar as diferenças, os falantes de ambos os sexos foram alternados (ver Tabela 1).

Variáveis dependentes

Para uma análise, usou-se um conjunto de indicadores associados à formação de impressões sobre locutores de rádio relatados por trabalhos anteriores (Prado, 1992, 1997; Soto, 2000): agrado, credibilidade, familiaridade, honestidade, inteligência, naturalidade, tranquilidade, profundidade, responsabilidade, segurança, simpatia, sinceridade e credibilidade. Todos esses indicadores foram medidos em escalas bipolares de sete graus, segundo a técnica do “diferencial semântico”.

TABELA 1

Distribuição de falantes em grupos de perceção

Em cada caixa do grupo, leia: identificação do falante: sexo (masculino = M / feminino = F) + número do falante dentro do seu sexo - frequência fundamental (FFA = agudo / FFM = médio / FFG = grave) - texto (texto 1 = T1 / texto 2 = T2).

P = posição no grupo de perceção.

Análise de dados

Procedimento

A primeira etapa da análise foi explorar o comportamento da escala das treze variáveis dependentes. Assim, obteve-se, após vários testes relacionados com a sua estrutura e por meio de uma análise fatorial de máxima verosimilhança com extração oblíqua, que o conjunto apresentava um caráter unidimensional (credibilidade) formado por dois subcomponentes altamente correlacionados entre si (r = .840). O teste de esfericidade KMO foi significativo (valor = 0,920; p <0,001) e o teste de adequação também foi significativo (= 1682,96; p <0,001).

A estrutura extraída, uma definição de credibilidade, teve que ser aceita como altamente adequada e confiável.

Dado esse resultado, procedemos imediatamente à revisão da literatura sobre medição de credibilidade (por exemplo, Berlo, Lemert e Mertz, 1969; Markham, 1968; McCroskey, 1966; McCroskey e Jenson, 1975; McCroskey e Young, 1981 e Whitehead, 1968). Destes trabalhos, baseamo-nos em McCroskey e Young (1981: 24-34), que relatam as descobertas de mais de uma década de pesquisa experimental sobre a medição do constructo (suas propriedades e dimensões) em diferentes situações comunicativas. Com base nas conclusões amplamente sustentadas por esses pesquisadores, esta pesquisa decidiu definir as dimensões da personalidade do falante (PER) e da competência do falante (COMP) para os dois fatores produzidos pela análise fatorial. De acordo com os resultados estatísticos, cada uma dessas duas dimensões é definida pela ação de seis indicadores. Assim, a primeira dimensão, pER, refere-se a indicadores relacionados com a capacidade e experiência para desenvolver um comportamento ou realizar uma tarefa; o segundo, cOMp, refere-se a aspetos do caráter da fonte e sua adequação para a tarefa que desenvolve.

Em relação aos dados numéricos, a dimensão PER inclui naturalidade, plausibilidade, simpatia, sinceridade, honestidade e simpatia percebida nos falantes (Alfa de Cronbach = 0,88) e explica 51,44% da variância total. Por sua vez, a dimensão COMP reúne a segurança, profundidade, tranquilidade, familiaridade, responsabilidade e inteligência que os sujeitos experimentais atribuem aos falantes (Alfa de Cronbach = 0,82) e explica 8,95% da variância total. Dada a confiabilidade desse modelo (alfa de Cronbach total = 0,91), decidiu-se que ambas as dimensões seriam exploradas em profundidade durante o estudo. Note, entretanto, a diferença entre o peso de ambos os fatores no modelo e a superioridade da dimensão PER como preditor do comportamento do constructo.

A seguir, e uma vez definida a estrutura fatorial com o escore de credibilidade total (CT) e cada um de seus componentes (PER e COMP), foi realizado um teste de médias (ANOVA e MANOVA). Em seguida, as pontuações das escalas aditivas foram comparadas em: 1) TC (escala total); 2) PER e cOMP (os subcomponentes ou dimensões da Credibilidade); 3) CM (a média do julgamento do par credível / não credível dos questionários) que foi observada, apenas, como dado norteador para a média da atribuição de credibilidade dos participantes, e 4) O restante do dependente também, a partir de agora chamaremos) indicadores observados. Os grupos aos quais o contraste de médias foi aplicado foram aqueles definidos por variáveis independentes (VI) e seus níveis: 1) frequência fundamental da voz - FF- (agudo -ffa-, médio -FFM- e grave -FFG-) e 2) modalidade de perceção (perceção sonora -PS- e perceção audiovisual -PA -).

Por fim, leva-se em consideração 2.560 avaliações assim distribuídas: 1) 640 avaliações correspondentes aos julgamentos de 80 sujeitos sobre vozes com FFG; 2) 1.440 avaliações correspondentes aos julgamentos de 180 sujeitos sobre vozes com FFM, e 3) 480 avaliações correspondentes aos julgamentos de 60 sujeitos sobre vozes com FFM.

Resultados

O efeito do FF sobre os indicadores é relatado a seguir, independentemente se apenas os locutores (PS) são ouvidos ou, ainda, suas imagens (PA) são visualizadas. Uma vez que a análise deste fator, é relatada a análise que leva em consideração a interação com o PM. Para facilitar a leitura e o entendimento, os dados numéricos desse tratamento estão detalhados na Tabela 1.

Tabela 1

Médias das variáveis dependentes em função da frequência fundamental das vozes dos falantes

Frequência fundamental

FFG

(n = 640) M (SD)

FFM

(n = 1440) M (SD)

FFA

(n = 480) M (SD)


Credibilidade total (CT)	47,92 (14,98)	58,23 (14,17)	52,74 (13,02)	122,30	<0,001
Personalidade (PER)	23,57 (7,84)	28,64 (7,95)	27,08 (7,52)	92,43	<0,001
Competência (COMP)	24,36 (8,32)	29,60 (7,25)	25,70 (6,61)	128,69	<0,001
Credibilidade média (CM)	4,04 (1,92)	5,05 (1,70)	4,70 (1,62)	74,50	<0,001
Agrado	3,79 (1,82)	5,10 (1,67)	4,69 (1,69)	130,94	<0,001
Familiaridade	3,48 (1,75)	4,57 (1,81)	4,21 (1,67)	81,69	<0,001
Honestidade	4,81 (1,45)	5,21 (1,34)	4,83 (1,33)	26,51	<0,001
Inteligência	3,83 (1,77)	4,59 (1,69)	4,45 (1,54)	46,16	<0,001
Naturalidade	3,38 (1,95)	4,37 (1,98)	4,30 (1,88)	58,99	<0,001
Profundidade	4,13 (1,98)	4,47 (1,75)	3,61 (1,57)	42,47	<0,001
Responsabilidade	4,59 (1,60)	5,26 (1,34)	4,78 (1,36)	57,75	<0,001
Segurança	3,84 (2,10)	5,32 (1,73)	4,90 (1,71)	145,63	<0,001
Simpatia	3,63 (1,54)	4,67 (1,62)	4,49 (1,62)	93,99	<0,001
Sinceridade	4,12 (1,63)	4,69 (1,60)	4,38 (1,55)	26,77	<0,001
Tranquilidade	4,49 (2,04)	5,39 (1,68)	3,74 (1,86)	167,33	<0,001
Verosimilhança	3,86 (1,76)	4,60 (1,70)	4,40 (1,57)	42,77	<0,001

FFG = Frequência Fundamental Baixa, FFM = Frequência Fundamental Média e FFA = Frequência Fundamental Alta)

As análises estatísticas mostram que existem diferenças estatisticamente significativas nas médias de todos os estimadores de credibilidade (CT, PER, COMP e CM) de acordo com o FF. As vozes com FFM são consideradas mais confiáveis do que as vozes com FFA. Por sua vez, as últimas são consideradas mais confiáveis do que as vozes do FFG.

Da mesma forma, este modelo de ajuizamento (em que as vozes com FFM são mais credíveis do que as vozes com FFA e são estatisticamente mais credíveis do que as vozes com FFG), também é apresentado na avaliação dos indicadores de segurança, profundidade, gosto, sinceridade, tranquilidade e familiaridade. Assim, as vozes com FFM são consideradas significativamente mais seguras, profundas, agradáveis, sinceras, calmas e familiares do que as vozes com FF e estas, por sua vez, estatisticamente, são consideradas mais possuidoras dessas qualidades do que as vozes com FFG. Determina-se, então, que esses indicadores são aqueles que contribuem para determinar as diferenças gerais na credibilidade dos locutores de acordo com as frequências de suas vozes.

Além disso, a análise dos dados detetou outro modelo de relação entre a credibilidade obtida pelas vozes com FFM e FFA em relação às vozes com FFG. FFM e FFA recebem médias mais altas para naturalidade, credibilidade, inteligência e simpatia do que vozes com FFG. Assim, as diferenças entre a menor credibilidade que os GFs obtêm em relação ao FFM e FFA se devem ao fato de os sujeitos considerarem que, estatisticamente, as vozes com FFG são menos naturais, credíveis, inteligentes e simpáticas que o FFM e FFA.

Por outro lado, na análise dos dados, também foi observado um terceiro modelo presente na relação estabelecida pelos recetores em relação às vozes com FFM em relação às com FFA e às de FFG. Assim, os dados mostram que as vozes com FFM obtêm maiores médias de responsabilidade e honestidade do que as demais frequências. Então, a diferença essencial entre a alta credibilidade que as vozes recebem com a FFM em relação às demais frequências, é que estas estão vinculadas pelos sujeitos à perceção de responsabilidade e honestidade.

Uma vez explorado o efeito do FF sobre as variáveis dependentes e indicadores, os resultados de sua interação com a modalidade de perceção (MP) são agora realizados. Nesse sentido, a aplicação do modelo multivariado mostrou que existe uma interação significativa entre MP e FF em alguns dos estimadores e indicadores de credibilidade e que, além disso, ambos os fatores, separadamente, afetam várias das medidas de credibilidade (ver tabelas 2 e 3 que incluem os dados numéricos).

Tabela 2

Médias dos estimadores de credibilidade, em função da modalidade de perceção e da frequência fundamental das vozes

Teste	CT	PER	COMP	CM
F	3.566	3.086	3.934	793
p	0.28	.046	.020	.453

Modalidad sonora

(SD)

FFG

49,166 ***

(.793)

24,006

(.439)

23,537 **

(.414)

4,085

(.098)

FFM

57.725 ***

(0,529)

28.161

(0,293)

29.615

(0,276)

5.010

(0,065)

FFA

52.351 ***

(0,916)

27.013

(0,507)

25.996 **

(0,478)

4.619

(0,113)

Modalidade audiovisual

(SD)

FFG

46.672 ***

(0,792)

23.134

(0,438)

25.160 **

(0,415)

4.762

(0,112)

FFM

58.739 ***

(0,528)

29.124

(0,292)

29.564

(0,277)

5.101

(0,065)

FFA

53.133 ***

(.914)

27.137

(.506)

25.339 **

(.479)

3.994

(.097)

CT = credibilidade total; PER = personalidade; COMP = competência;

CM = credibilidade média;

FFG = frequência fundamental baixa;

FFM = frequência fundamental média e FFA = frequência fundamental aguda (p <0,05; ** p <0,01; *** p <0,001)

Tabela 3

Variáveis dependentes dependendo da modalidade de perceção e da frequência fundamental das vozes

Teste A F I H N P R SE SIM SEM T V

F .547 .527 1.362 .116 5.411 4.120 2.108 3.267 4.346 1.241 18.093 3.149

V .579 .591 .256 .890 .005 .016 .122 .038 .013 .289 .000 .043

Modo de som M

(SD)

FFG 3.809 3.470 3.962 4.856 3.539 4.295 4.584 4.019 3.762 4.144 4.824 3.997

(096) (099) (094) (076) (109) (099) (079) (102) (090) (090) (101) (094)

FFM 5.043 4.584 4.610 5.292 4.256 4.401 5.240 5.291 4.581 4.598 5.395 4.546

(064) (066) (063) (051) (073) (066) (053) (068) (060) (060) (067) (063)

FFA 4.632 4.297 4.569 4.912 4.418 3.548 4.908 4.866 4.439 4.335 3.410 4.448

(111) (114) (109) (088) (126) (115) (091) (118) (103) (103) (116) (109)

Modalidade audiovisual

(SD)

FFG 3.762 3.506 3.681 4.755 3.219 3.956 4.589 3.647 3.494 4.094 4.163 3.997

(096) (099) (094) (077) (109) (0,099) (079) (102) (089) (089) (101) (094)

FFM 5.158 4.551 4.567 5.137 4.478 4.529 5.284 5.346 4.758 4.783 5.382 4.546

(064) (066) (063) (051) (073) (066) (053) (068) (060) (060) (0,057; (063;

FFA 4.754 4.117 4.329 4.741 4.175 3.671 4.649 4.921 4.537 4.404 4.050 4.448

(110) (114) (109) (088) (126) (115) (091) (118) (103) (103) (116) (iOP)

A = semelhante; F = familiaridade; I = inteligência; H = honestidade; N = naturalidade; P = profundidade; R = responsabilidade;

SE = segurança; SI = simpatia; SIN = sinceridade; T = tranquilidade; V = probabilidade; FFG = frequência fundamental baixa; FFM = frequência fundamental média; FFA = frequência fundamental aguda.

Por um lado, verificou-se que as interações significativas entre essas duas variáveis (mp e FF) são encontradas nas dimensões CT, per e COMP (tabela 2) e nos indicadores de segurança, naturalidade, profundidade, plausibilidade, tranquilidade e simpatia (tabela 3). Os detalhes dessas interações serão explicados um a um.

A análise do desempenho conjunto do mp e do FF no TC mostra que quando os sujeitos ouvem apenas as vozes dos falantes (PS) tendem a atribuir médias mais semelhantes entre as propriedades do FF do que quando também veem suas imagens. Assim, as médias de TC obtidas pelas vozes com FFG, FFM e FFA são muito mais diferentes (se distanciam) no PA do que no PS. Então, o mp afeta a definição das diferenças entre as médias de credibilidade das vozes de todas as forças armadas. Por meio das imagens dos locutores, as impressões que as vozes obtêm sobre a credibilidade dessas frequências são amplificadas, reconhecidas ou ampliadas (Tabela 2).

Em relação ao desempenho de mp e FF em conjunto, a análise mostra que os julgamentos das variáveis que fazem parte desta dimensão tendem a diferir menos no PS e a diferir mais no PA. Então, da mesma forma que acontece com o estimador TC, a perceção das imagens do locutor faz com que os julgamentos sobre a dimensão da credibilidade sejam ampliados, ampliados ou distinguidos em maior extensão do que quando apenas suas vozes são ouvidas. Por outro lado, vale dizer que em ambos os mp, a voz com FFM obteve as maiores médias da dimensão PER e a voz com FFG obteve as menores médias nessa dimensão (Tabela 2).

Em relação ao desempenho do mp e do FF em conjunto na outra dimensão de credibilidade, competência, COMP, a análise mostra que a voz com FFM recebe as maiores médias para esta dimensão em ambos os mp. Tanto para ouvir vozes quanto para ver suas imagens, os locutores FFM são considerados mais competentes. A relação entre as médias de COMP de FFG e FFA é semelhante no PS, mas difere ou a distância no PA devido ao fato de que as vozes com FFA recebem médias COMP maiores (tabela 2).

A partir dos dados dos parágrafos anteriores, pode-se concluir que o BP afeta, de forma negativa e em maior medida, as avaliações por e COMP das vozes com FFG. Esses, conseqüentemente, são os que mais sofrem os efeitos mais evidentes do MP.

Então levamos em consideração o indicador tranquilidade (que possui a interação mais significativa na análise), que faz parte da dimensão COMP. Assim, observa-se que em ambos os PM, as vozes com FFM são as que obtêm as maiores médias desse indicador (tabela 3). A análise também mostra que a relação entre as médias de tranquilidade entre as vozes FFG e as vozes FFA (ou seja, as frequências extremas) é mais evidente, separada e diferente em PS do que em PA. Com a perceção das imagens dos locutores, então, a distância entre as médias silenciosas recebidas pelas vozes FFA e FFG é reduzida.

Por outro lado, observa-se que a interação do FF e do PM afeta o indicador de naturalidade, em segundo lugar de efeito (tabela 3). Da mesma forma, observa-se que este é o indicador da dimensão PER que recebe os maiores resultados da ação de ambas as variáveis. A análise mostra que as médias de naturalidade atribuídas às vozes com FFA e FFG se aproximam no PS e são desencadeadas, diferenciadas ou diferenciadas no PA.

O indicador de simpatia também recebe os efeitos da interação entre FF e PM (Tabela 3). As médias de todos os FFs aproximam-se de PS (em particular as do FFM e FFA que recebem valorização superior às do FFG) e são separadas, distinguidas ou expandidas no PA seguindo a mesma tendência (FFM e FFA com médias mais altas e FFG com muito menor).

Da mesma forma, a interação afeta o indicador de profundidade de duas maneiras (Tabela 3). Por outro lado, as profundidades das vozes FFM e FFG são aproximadas em PS e são acionadas ou diferenciadas em PA e especialmente com as vozes FFM. Também, num segundo sentido, as avaliações em Profundidade das vozes com FFA e FFG são aproximadas no PA e se distinguem no PS com médias mais altas para as vozes FFG.

No que diz respeito ao indicador de segurança, a análise mostra que as propriedades das frequências médias fundamentais estão próximas em PS e com distância em PA. Essa diferenciação significa que as vozes com FFG recebem médias de segurança mais baixas e FFM e FFA maiores (Tabela 3).

Finalmente, a interação afeta o indicador de probabilidade. A interação segue a seguinte direção: as três vozes aproximam-se em PS (em particular FFM e FFA) e distanciam-se em PS (até que a verossimilhança da voz com FFG em PS esteja bem abaixo) (Tabela 3).

Em conclusão, a análise mostra que o PM, por si só, afeta significativamente apenas a inteligência e a honestidade, enquanto o FF, por si só, afeta todas as variáveis dependentes. Porém, e em resumo, a interação (modalidade x frequência) é significativa nas diferenças médias para: credibilidade total, dimensões de personalidade e competência e os seguintes indicadores nesta ordem de significância (da maior para a menor influência): tranquilidade, naturalidade, simpatia, profundidade, segurança e credibilidade.

Conclusões

No ponto anterior, fornecemos um relato completo dos resultados do tratamento experimental. A seguir, observamos seus aspetos mais relevantes.

Os resultados relatados confirmam as duas hipóteses deste trabalho. Por um lado, comprovam que a frequência fundamental das vozes é um elemento influente na formação das impressões das audiências nos intérpretes dos meios de comunicação. Por outro, mostram que existe um efeito da interação conjunta da frequência fundamental e da perceção audiovisual na formação das impressões. Na verdade, a perceção do rosto afeta, em grau diferente, os julgamentos dos recetores dependendo se são falantes com vozes agudas, médias e baixas.

Esses resultados reforçam a hipótese da dominância do sinal sonoro da fala (a voz) sobre o sinal visual (o rosto) na formação de impressões sobre os intérpretes audiovisuais (Daly e Bench, 1996; Massaro e Cohen, 1996), Eles adicionam dados ao grande corpo de evidências sobre a integração percetivo-visual (MacDonald e McGurk, 1978; Massaro e Cohen, 1983, 1996; Summerfield, 1987) e são outro argumento a favor do estudo da voz na comunicação dos meios de comunicação. Por esse motivo, acreditamos que estudos futuros devem aprofundar-se nas qualidades do discurso adequado para os meios de comunicação, em particular os sinais não verbais (por exemplo, velocidade, ritmo, intensidade, manipulação do timbre, articulação, sotaque) e sua relação com a formação de impressões de os públicos em diferentes contextos comunicativos.

Apesar da dominância do som sobre o visual, e porque os resultados mostraram que o efeito da modalidade de perceção é maior com vozes de frequências extremas (graves ou agudos), parece que a perceção do rosto (talvez devido à presença de os movimentos articulatórios da fala, segundo dizem os especialistas em perceção da linguagem) exercem uma função esclarecedora de formação de impressões sobre essas vozes. Consequentemente, uma das funções da perceção audiovisual da face melhoraria a avaliação da fala ao conferir inteligibilidade ao julgamento de vozes com frequências distantes da média.

No entanto, é importante notar que este estudo também constatou que há uma maior variabilidade nos julgamentos dos recetores quando os locutores são ouvidos (como na televisão) do que quando são ouvidos (como no rádio), portanto, no som o julgamento é mais consistente entre as audiências do que a ajuizamento audiovisual. No entanto, esse dado deve ser tomado com cautela: a maior variabilidade do julgamento audiovisual versus som reflete-se na existência de maiores diferenças entre as diferentes propriedades avaliadas. Então, a perceção audiovisual dos rostos dos falantes ajudaria a ampliar, destacar ou esclarecer os contrastes de algumas das impressões sobre os diferentes tipos de vozes. Assim, na televisão, as diferenças nas médias de julgamento para os diferentes tons das vozes dos locutores tenderiam a ser sempre maiores do que as diferenças de julgamento para os diferentes tons do rádio.

Por outro lado, e de acordo com os dados fornecidos por Strand (1999: 86-101) e Wyer et al. (1994: 254-267), as maiores diferenças nos julgamentos em testes audiovisuais, em relação ao som, poderiam ser explicadas pelo fato de que a informação visual dos falantes envolve o acesso às expectativas sociais sobre os falantes a partir de sua aparência. Estudos futuros, no entanto, devem-se aprofundar especificamente nos elementos da imagem que contribuem para obter maior variabilidade dos julgamentos sobre as vozes dos locutores dos meios de comunicação.

Da mesma forma, os resultados fornecidos parecem apoiar Trevino, Lengel e Draft (1987: 553-575) que, à luz da teoria da riqueza de meios de comunicação, consideram que as impressões das audiências dos meios de comunicação mais ricos em informações são mais precisas; que a informação visual tende a homogeneizar as perceções. Este estudo mostra que uma proporção das perceções médias sobre os falantes pode ser mais definitiva (mais clara) quando a imagem (de pistas visuais) está disponível. No entanto, os resultados confirmam que o público extrai suas impressões do locutor principalmente dos elementos sonoros de sua fala e que o julgamento médio é mais homogéneo no meio “menos rico” (no som). Isso nos leva a pensar, por um lado, que a homogeneidade das impressões é um fator diferente da precisão do julgamento. Em outras palavras, uma coisa é o público concordar mais ou menos sobre suas impressões sobre um ator de meios de comunicação e outra é que seus julgamentos sejam mais claros, definitivos ou radicais. Esses dados, aliás, também levam a afirmar que as audiências formam impressões sobre os atores dos meios de comunicação a partir da obtenção das informações mínimas necessárias para dar conta da tarefa que lhes foi confiada, ou seja, de forma pragmática e orientada, como Abele e Petzold (1998) diriam. Por fim, levam à hipótese de que a eficácia da comunicação das organizações que veiculam mensagens sonoras e audiovisuais (por exemplo, grandes corporações e à luz das evidências sobre o crescimento de produtos cross-media) poderia depender do melhor aproveitamento dos elementos relevantes para o meio menos rico na configuração da mensagem que enviam a seus públicos. Estudos adicionais devem testar essas suposições.

Por outro lado, este trabalho também considera que a credibilidade é o fator norteador, essencialmente, a formação de impressões sobre os atores da representação mediática e é o elemento que ajuda a organizar o resto das avaliações das audiências. Esses resultados são consistentes com aqueles relatados pelos pesquisadores mais proeminentes da credibilidade dos meios de comunicação (Berlo, Lemert e Mertz, 1969; Markham, 1968; McCroskey, 1966; McCroskey e Jenson, 1975; McCroskey e Young, 1981 e Whitehead, 1968), que defendem que é a variável mais influente no julgamento das personalidades que aparecem nos meios de comunicação. Mas, da mesma forma, os dados fornecidos por este estudo indicam que a atribuição de credibilidade é derivada de perceções de perceções e competência percebida (com maior peso da primeira do que da segunda), o que confirma os achados do programa experimental de James C. McCroskey e seus associados, que demonstram que ambas as dimensões estão na base da definição de credibilidade.

Os resultados deste estudo são aplicáveis à conceção de conteúdos audiovisuais mais eficazes porque fornecem informações úteis (e baseadas no estudo dos seus efeitos nas audiências) para o controlo e manipulação expressiva da voz ou imagem. Também acreditamos que os resultados podem ser sugestivos para os interessados em investigar os processos percetivos ou a formação de impressões de audiências de rádio e televisão.

Tradução e adaptação

Rui de Melo

Doctor en Periodismo y Ciencias de la Información na Universidad Pontificia de Salamanca

e licenciado em Direito pela Universidade Católica do Porto

CR - CLUBE DE RÁDIO

Páginas

Efeito do tom de voz e da perceção do rosto na formação de impressões nos locutores dos meios de comunicação

Sem comentários:

Enviar um comentário

HOJE HÁ COISAS

A linguagem sedutora da rádio

SUGESTÃO

Respiração

Denunciar abuso